TAG标签
3天把Llama训成Mamba 性能不降 推理更快!

3天把Llama训成Mamba 性能不降 推理更快!

新智元报道编辑,alan,新智元导读,近日,Mamba方面又搞出了有意思的研究,来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理...

Transformer最强竞争者 一文看懂Mamba

Transformer最强竞争者 一文看懂Mamba

机器之心报道编辑,Panda深度学习架构有很多,但近些年最成功的莫过于Transformer,其已经在多个应用领域确立了自己的主导地位,如此成功的一大关键推动力是注意力机制,这能让基于Transfor...

能感知多模态分情况行事 Meta提出模态感知型专家混合

能感知多模态分情况行事 Meta提出模态感知型专家混合

机器之心报道混合专家,也得术业有专攻,对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限,无法整合不同模态的信息,也难以输出包含多种模态的内容,为了克服这一局...

越训越傻 Nature封面 AI训AI

越训越傻 Nature封面 AI训AI

AI训练AI,可能会让AI变傻,!来自牛津、剑桥等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃,其研究成果被选为最新的Nature封面,直接一个,GARBAGEOUT!要知道,现在绝...

1页 12