
10 月 12 日消息 语言模型(Language Model)简单来说就是一串词序列的概率分布,主要作用是为一个长度为 m 的文本确定一个概率分布 P,表示这段文本存在的可能性。
大家之前可能或多或少听说过 GPT-3,OpenAI 的语言模型,堪称地表最强语言模型,也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品,而且业内其他企业也在努力推出自家的模型。
微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型(MT-NLG),这是迄今为止训练的和最强大的解码语言模型。
作为 Turing NLG 17B 和 Megatron-LM 的继任者,这个模型包括 5300 亿个参数,而且 MT-NLG 的参数数量是同类现有模型 GPT-3 的 3 倍,并在一系列广泛的自然语言任务中展示了无与伦比的准确性,例如:
完成预测
阅读理解
常识推理
自然语言推理
词义消歧
105 层、基于转换器的 MT-NLG 在零、单和少样本设置中改进了先前进的模型,并为两个模型规模的大规模语言模型设定了新标准和质量。
据悉,模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的,该超级计算机由 560 个 DGX A100 服务器提供支持,这些服务器以完整的胖树(FatTree)配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU,通过 NVLink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。

免责声明:本文仅代表作者个人观点,与每日科技网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.
今日热点
精彩推荐
-
-
采购拿回扣问题,教你一个小妙招,看看怎么做!
2017-09-18 11:09 广告 阅读
-
-
苦逼的老板,教你一个小妙招,怎么防采购拿回扣!
2017-09-18 11:09 广告 阅读
-
-
传播易上线视频制作频道
2020-11-18 14:03:07 更新 阅读
-
-
《SNK VS. CAPCOM SVC CHAOS》登陆Steam,格斗界
2024-07-22 17:06:38 更新 阅读
-
-
《使命召唤:黑色行动6》预告发布,海湾战争成焦
2024-05-24 17:50:37 更新 阅读
-
-
哈苏发布全新907X & CFV 100C数码中画幅相机,零
2024-01-25 09:40:53 更新 阅读
-
-
首届“群体协同与自主”创新发展论坛在京举行
2024-01-19 11:17:46 更新 阅读
-
-
华硕ROG幻14 2024款笔记本电脑:创新与性能的完
2024-01-04 15:08:31 更新 阅读
-
-
中国移动咪咕举办2024创新合作伙伴大会
2023-12-29 13:59:12 更新 阅读

