1.6万亿参数!谷歌开源大语言模型Switch Transformer

2023-04-09 新智元 新智元 发表于上海

万亿级参数模型Switch Transformer开源了!

万亿级参数模型Switch Transformer开源了!

距GPT-3问世不到一年的时间,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数

 
图片
比之前由谷歌开发最大的语言模型T5-XXL足足快了4倍,比基本的T5模型快了7倍,简直秒杀GPT-3!
 
GPT-3使用了惊人的1750亿参数,堪称史上最大AI模型。

Switch Transformer:迄今最大语言模型

Transformer架构已成为NLP研究的主要深度学习模型。最近的研究工作主要集中于增加这些模型的大小(以参数数量衡量),其结果可能超过人类的表现。

来自OpenAI的团队发现,GPT-3模型的性能确实遵循幂律关系随参数数量扩展。

2021 年初,谷歌发布了一篇题为“Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”的论文。当时大家并没有重视!

在开发Switch Transformer时,谷歌研究人员力求最大程度地增加参数数量,同时保持每个训练示例和相对少量的数据训练的FLOPS数量不变。

正如研究人员在一篇详细介绍他们研究成果的论文中所指出的,大规模训练是获得强大模型的有效途径。

尽管在大数据集和参数支撑下的简单的架构可以超越一些复杂的算法,然而,高效的大规模训练和密集的计算是关键。

为此,Switch Transformer使用了Mixture of Experts (MoE,混合专家)模型。

图片

不同专家容量因子的路由示例图

 

MoE由一支研究团队于1991年开发,该团队的成员包括深度学习先驱和Switch Transformer的共同提出者Geoff Hinton,是90年代初首次提出的人工智能模型范式。

MoE会为每个输入的例子选择不同的参数。

多个专家被保留在一个更大的模型中,或者说是专门处理不同任务的模型,针对任何给定的数据,由一个「门控网络」来选择咨询哪些专家。

结果得到一个稀疏激活(sparsely activated)模型——仅使用模型的权值子集,或仅转换模型中输入数据的参数。该参数数量惊人,但计算成本恒定。

 

图片

Switch Transformer的编码器块图示

研究者利用Mesh-TensorFlow(MTF)库来训练模型,从而利用高效分布式数据和模型并行性。

Switch Transformer的创新之处在于它有效地利用了为密集矩阵乘法设计的硬件,如GPU和谷歌的张量处理单元TPU。

在分布式训练设置中,他们的模型将不同的权重分配到不同的设备上,这样权重就会随着设备数量的增加而增加,但是每个设备却可以管理设备的内存和计算足迹。

 

图片

数据和权重划分策略图示

此前,谷歌当时的T5组合模型曾在SuperGLUE霸榜。

这一模型在语言模型基准测试榜SuperGLUE上得分超过T5的基础水平,也算是正常发挥。

 

图片

 

谷歌研究人员声称,他们的 1.6 万亿参数模型(Switch-C),拥有 2048 名专家,显示出「完全没有训练不稳定性」,其速度相比于T5-XXL模型提升了4倍,比基本的 T5 模型快了7倍。

 

图片

 

总的来说,Switch Transformers是一个可扩展的,高效的自然语言学习模型。

通过简化MoE,得到了一个易于理解、易于训练的体系结构,该结构还比同等大小的密集模型具有更大的采样效率。

这些模型在一系列不同的自然语言任务和不同的训练机制中,包括预训练、微调和多任务训练,都表现出色。

这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,这些模型可以实现显著的加速。

谷歌已经证明,可以创建创新的模型架构,在不增加计算成本的情况下提高模型性能,这在不久的将来肯定会在数据科学和人工智能社区看到更多。

参考链接:
https://arxiv.org/pdf/2101.03961.pdf
https://www.infoq.com/news/2021/02/google-trillion-parameter-ai/
https://towardsdatascience.com/understanding-googles-switch-transformer-904b8bf29f66

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2124710, encodeId=ca6e2124e108a, content=大语言模型, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=2d3d3015017, createdName=jshbyywk2008, createdTime=Mon Apr 10 06:14:34 CST 2023, time=2023-04-10, status=1, ipAttribution=河北省), GetPortalCommentsPageByObjectIdResponse(id=2124693, encodeId=281121246936e, content=<a href='/topic/show?id=68af9214410' target=_blank style='color:#2F92EE;'>#谷歌#</a>开源<a href='/topic/show?id=875b105831ea' target=_blank style='color:#2F92EE;'>#大语言模型#</a><a href='/topic/show?id=461e1058324f' target=_blank style='color:#2F92EE;'>#Switch Transformer#</a><a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=78, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=92144, encryptionId=68af9214410, topicName=谷歌), TopicDto(id=105831, encryptionId=875b105831ea, topicName=大语言模型), TopicDto(id=105832, encryptionId=461e1058324f, topicName=Switch Transformer), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/Random/55971dc507c93968175ce7cc1e177b372a83869f.jpg, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Mon Apr 10 01:04:49 CST 2023, time=2023-04-10, status=1, ipAttribution=上海)]
    2023-04-10 jshbyywk2008 来自河北省

    大语言模型

    0

  2. [GetPortalCommentsPageByObjectIdResponse(id=2124710, encodeId=ca6e2124e108a, content=大语言模型, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=2d3d3015017, createdName=jshbyywk2008, createdTime=Mon Apr 10 06:14:34 CST 2023, time=2023-04-10, status=1, ipAttribution=河北省), GetPortalCommentsPageByObjectIdResponse(id=2124693, encodeId=281121246936e, content=<a href='/topic/show?id=68af9214410' target=_blank style='color:#2F92EE;'>#谷歌#</a>开源<a href='/topic/show?id=875b105831ea' target=_blank style='color:#2F92EE;'>#大语言模型#</a><a href='/topic/show?id=461e1058324f' target=_blank style='color:#2F92EE;'>#Switch Transformer#</a><a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=78, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=92144, encryptionId=68af9214410, topicName=谷歌), TopicDto(id=105831, encryptionId=875b105831ea, topicName=大语言模型), TopicDto(id=105832, encryptionId=461e1058324f, topicName=Switch Transformer), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/Random/55971dc507c93968175ce7cc1e177b372a83869f.jpg, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Mon Apr 10 01:04:49 CST 2023, time=2023-04-10, status=1, ipAttribution=上海)]

相关资讯

预测死亡?Google一下或许你就知道

Google在人工智能方面已取得空前进步,目前正凭借Medical Brain项目进军医疗领域。其最新开发的人工智能软件Neural Networks,可将Google擅长的预测技术与机器学习相结合,分析原始医疗数据,从而预测住院病人的住院时长、再入院几率和死亡几率。Google AI预测系统V.S. 传统数据分析此前,一患乳腺癌的女子到医院治疗时,癌细胞已扩散至肺部。医院电脑在读取其重要生命迹

2018谷歌学术指数出炉,影响因子何去何从?

2018年8月3日,谷歌学术发表了2018年最新的学术期刊和会议影响力排名。其结果更广泛、客观、准确,这会不会进一步影响学术期刊的评价体系?知社学术圈做出对比与分析,后文附谷歌学术排名前20的各学科期刊列表,谨供各位参考。

2018谷歌学术影响力排名出炉:这些才是第一期刊

8月2日,谷歌学术发表了2018年最新的学术期刊和会议影响力排名,根据语言不同,共作了英语、中文、葡萄牙语、西班牙语、德语、法语、俄语、日语、韩语、波兰语、乌克兰语、印度尼西亚语等不同语种下的期刊分类。

谷歌Verily智能手表获美国FDA批准,可用于心电图节律检测

上周五,美国FDA批准了一款名为Verily Study Watch智能手表上的心电图功能(ECG),使其成为又一款可做医疗用途的智能手表。而推出该款手表的Verily和谷歌同属一个母公司,即Alphabet。因此,这款手表在坊间也广泛被成为“谷歌手表”。

这项技术,有望从根本上治疗癌症

2021年6月27日,首个体内CRISPR基因编辑安全性和效果的临床数据在NEJM公布,结果表明单次静脉注射CRISPR可精确编辑体内的靶细胞,治疗基因疾病。