今日,阿里巴巴达摩院发布超大规模语言模型PLUG,PLUG全名为Pre-training for Language Understanding and Generation,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。
该模型参数规模达270亿,是目前全球规模最大的中文纯文本预训练语言模型。其目标是通过超大模型的能力,大幅提升中文自然言技术在各类任务中的表现,取得超越人类表现的性能。
据悉,PLUG采用了1TB以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云EFLOPS高性能AI计算集群。
接下来,PLUG将扩大参数规模至2000亿级,并进一步提升文本生成质量。
与PLUG发布同步,达摩院宣布近期将开源阿里巴巴深度语言模型体系大部分重要模型。
发布后,PLUG刷新了中文语言理解评测基准CLUE分类榜单历史纪录。
4月19日,PLUG刷新CLUE分类榜单纪录,排名仅次于“人类”
- 在语言理解任务上,PLUG以80.614分刷新了CLUE分类榜单纪录;
- 在语言生成任务上,PLUG多项应用数据较业内最优水平提升了8%以上。
此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标中对语言结构信息的建模,加强模型对于语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,有着很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。
整个训练流程分为两个阶段。首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当。
在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。
测试链接:https://nlp.aliyun.com/portal?spm=5176.12901015.0.i12901015.9888525cd9cuuH#/BigText_chinese
达摩院语言技术实验室研究员黄非表示:“现在预训练语言模型的发展趋势包括更多的训练数据、更广的数据领域、跨模态信息的融入等。模型能力正变得越来越强大,在生成理解等方面也正逐步接近人类水平。但在逻辑推理、情感表达方面,语言模型的能力还有待进一步提升。后续期待语言模型融合除文本信息以外更广泛的人类知识,能作为认知智能的技术基座,在更多场景中得到广泛应用。”
阿里达摩院语言技术实验室负责人司罗称:“达摩院NLP团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让AI没有难懂的语言,并探索通用人工智能之路。”
在超大规模预训练模型领域,除发布以中文为核心的PLUG外,阿里达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”,以及联合清华大学发布了超大规模多模态预训练模型“M6”。