来源:极客公园
作者:幸芙
原标题:《「姜子牙」大模型背后,一个专业 AI 团队的进化》
自 1956 年科学家研发出第一个「西洋跳棋」AI 程序算起,AI 至今已经发展了近 70 年。期间经历几次潮起潮落,但一条主线却贯穿其中:那就是「模型化」——「模型」在 AI 中的占比越来越高。这一趋势在大语言模型 ChatGPT 出现后达到顶峰。
「我们坚信未来 AI 就是模型的天下,多么重视模型都不为过。」
7 月 22 日,在极客公园主办的 AGI Playground 大会上,IDEA(粤港澳大湾区数字经济)研究院认知计算与自然语言讲席科学家张家兴说道。
2021年,张家兴就带领IDEA研究院CCNL封神榜团队创建了最大的中文开源预训练模型体系「封神榜」,是模型「先行者」。他们见证了大模型带来的「范式转移」。
张家兴认为,这场转移包括两个关键词,「消失」和「形成」。「消失」是指,随着ChatGPT通用大模型到来,过去做信息抽取、问答、文本输出等特定类型的模型在消失。「形成」是指,大模型背后考验工程化的能力,会形成从模型诞生到微调到落地的新生态位。
IDEA研究院CCNL也正在新生态位中布局。
除了研发全能力模型之外——目前,封神榜团队基于LLaMa,生成了「姜子牙」(Ziya)通用大模型,已经应用于数字人、文案写作等场景。约一个月前,他们还训练出了一系列的专家模型,如多模态模型、代码模型、写作模型、对话模型等。后者可以帮用户写文章、新媒体文案、直播脚本、宣传海报、甚至网文小说等。
张家兴认为,在这个庞大的生态系统中,创业者可以结合自身特长思考要占据生态位的什么位置。「任何有志于投身到大模型领域的人,都可以从中找到自己的位置。」他说。
以下是张家兴在 AGI Playground 大会上的演讲全文,经极客公园节选整理:
在极客公园主办的 AGI Playground 大会上,张家兴发表演讲
01、大模型时代:新范式和新生态
今年我们言必称大模型的时候,言必称 AGI 的时候,我们总会把大模型这件事情认为是 AI 中理所当然的。往前推,即使我们推到 1997 年非常重要的一件事情是「深蓝」击败「卡斯帕罗夫」。即使那样的 AI 系统里面也没有一个深度学习模型。
整个 AI 发展历程始于 1956 年,至今已有 70 年。虽然 AI 经历了几次潮起潮落,我们可以发现 AI 发展一直沿着一条线进行,这就是 AI 的模型化进程——模型在 AI 中所占的比重越来越强。今天我们坚信,未来 AI 就是模型的天下,我们多么重视模型都不为过。
图:张家兴讲述 AI 的「模型化」过程
我们都说这次大模型是「技术范式」的变化,用两个关键词概括就是,「消失」和「形成」。
「消失」指的是类型的消失。半年前,整个 AI 领域充斥着各种不同类型的 AI 结构和任务。比如在结构上,有 BERT、T5 等各种模型结构。比如在任务上,有分类、信息抽取、写摘要、问答等各种任务。然而,随着通用大模型时代的到来,这些多样性正在消失。
现在,唯一的模型结构是 GPT,唯一的任务是文本输入和文本输出。所以曾经的 AI 概念,如句化分析、关键词等概念,都逐渐都淡出我们的视野了。而且,今天模型的用途已不再由技术提供方决定,而是由使用的客户自行决定。
而「形成」指的是生产链的形成。一个模型的构建需要投入巨大的资源,几乎没有人能够独自从头到尾完成这项任务。它需要一个庞大的团队,背后很大的算力支持下才能打磨出来。从模型的最初构想,到中间各种阶段的微调,再到最后的落地实践,这构成了一个完整的生产链。
从「消失」和「形成」,可以看到大模型的「范式转移」。有时候,技术的进步就是无情的,不受个人意志的左右,新的技术范式将代替老的技术范式。
那么,大模型作为这项新的技术范式,到底有什么价值呢?在我看来,它带来了四个全新的价值:
1全新的理解能力
在自然语言理解方面,当下的大模型远超过之前所有的模型。它仿佛真的了解我们每句话的意思。尽管回答可能不完全准确,但呈现出了全新的理解能力。
2全新的工具
它既是提效的工具,能把人从繁重的劳动中解放出来。它也是创造性工具,能创造出人创造不出来的东西。例如,去年 Diffusion Model 展示出的文生图能力。
3新界面
曾经,我们必须通过编写程序来访问数据和 API,而现在,似乎不再需要编写繁琐的代码,只需用自然语言描述,大模型就能自动生成代码。
4新引擎
大模型不仅仅是单一点能力,它可以作为引擎,驱动信息检索、对话生成、甚至创造故事等工作。
大模型还带来了全新的生态,这就是如何跟产业结合落地的问题。
我们认为大模型不仅仅是普通的 API,或者不可改变的模型。我们强调上游公司生产模型之后,下游客户要进行进一步的训练,跑完最后一公里。这样,模型就能嵌入到每个客户自己的场景中。当模型表现得越好,收集的数据就越多,又会反过来加强模型。这样能够真正推动整个产业的发展。
在这个新生态中,最上游是做基底模型的公司,基底模型往下有许多团队,会专注于特定能力或领域的模型。继续往下,就是与解决方案公司、云厂家和硬件厂家合作,创造各种各样的产品,最终服务于落地的企业和政府。
图:张家兴描述的大模型新生态
从基底模型到真正的落地,这涉及了非常多的环节和链路,也孕育了许多新的生态位。我觉得,每个人都可以结合自己的特长,思考在这个生态系统中要占据哪些位置。其实任何有志于投身到大模型领域的人,都可以从中找到自己的位置。
02、「姜子牙」大模型背后
我们团队已经成立两年,从我们过往的经历中,可以很清楚地看到这种范式变化对我们造成的影响。
一直到去年年底,我们都是开发大量的开源模型,做不同的模型结构和任务类型。仅在一年的时间里,我们就开源了 98 个模型,创下了中文领域的开源纪录。
然而,去年年底,文生图的模型作为一款爆品突然出现了。于是我们开始转向,做了中文第一个开源的 Stable Diffusion 模型,我们称为「太乙」模型。我们希望能跟上大模型的技术范式变化。
到了当下通用大模型时代,我们团队正在加班加点干的事情是,为中文训练最好的开源基底大模型。这就是大家都知道的 LLaMA2。我们训练了 20B 的 token,相较于之前训练的「ziya-LLaMA-13B」模型,训练速度提高了 38%,彻底解决了训练过程中不稳定「训飞」(训练异常)的问题。
图:训练 20B token 之后,LLaMA2 解决了训练过程中不稳定的「训飞」问题
这个模型我们训练出来之后将会完全开源,而且不会有任何商业应用上的限制。同时,我们承诺会对这个模型进行持续的训练,希望为整个大模型社区提供一个最好的开源可商用模型的基底。
在当前的技术范式下,今年推出的 ChatGPT 令许多人兴奋不已,说通用大模型将颠覆各行各业。然而,随着时间的推移,我们冷静下来发现,大模型其实只是对现有场景的净化和优化。因此,我们认识到在垂直行业、领域和能力上,仍然有许多大模型应用的可能性和机会存在。
所以大概一个月前,我们团队生产了一系列专家模型,比如多模态模型、代码模型、写作模型、对话模型等。其中许多都已经发布,并达到了领域内最优秀的水平。
我们最近刚刚开源了中文协作模型,称为「子牙 writing」。我们希望这个模型能够成为一个开箱即用的小助手,为企业和个人提供提效的支持。例如,政府人员可以让子牙 writing 帮助写灾害情况的汇报,或者写领导在开幕式上的致辞,因为它能非常符合政策报告的风格。
另外,它还可以让中文社区的创作者、运营人员和营销人员从中解放出来,帮助写各种类型的文章、文案、软文,甚至可以创作优秀的短篇小说,甚至一篇古代修仙玄幻的网文小说。我们可以看到,它不管是在章节结构逻辑性、还是故事情节上,都有一个非常好的表现。
我们还开发了一个检索包,只使用了一个亿的参数。它在法律和金融领域的效果都要优于目前的一些解决方案,甚至比目前开源最好的向量模型还要好。我们的工具包也可以成为金融行业的小助手,为研究员和分析师提供帮助。
我们为什么可以生产出这么多高质量模型?
背后是我们的许多积累,包括三阶段的训练系统(预训练 PT、有监督微调 SFT、人类反馈学习 RLHF),包括积累的大量高质量数据、自研的一些算法、以及把它沉淀到我们的训练系统中。
我们的每一个模型都同时支持开源和商业版,并授权我们的伙伴进行训练和微调,让他们在自己的场景下面做私有化的训练。
由小见大,从我们一个团队的变化,也反映出当下整个大模型领域技术范式的变化。
03、现场提问
图:IDEA 团队接受现场提问
问:如何看待未来硬件推理架构?未来的硬件是长期「训推一体」,还是会有专用推理芯片的机会?
张家兴:本来我们曾经是训练和推理两类芯片,但是现在的推理芯片显然无法适应现在的大模型。
所以目前,基本从硬件的限制来说,做「训推一体」比较多。而且训推一体有很大的好处就是它可以复用算力。我们推理不见得一直是属于满负荷状态,所以可以充分利用波谷的时间做训练,这也是从经济的时间来考虑。
未来来看,推理芯片仍然具有其存在的意义。在某些场景下,比如移动端、边缘计算或车载设备等,仍然需要特殊定制的推理芯片。即使在云端、服务器里面,如果推理芯片朝着低功耗或者其他方面能够有更多的优化,那它也有存在的意义。我觉得未来应该还是会有专门的芯片做专门的事儿。
问:针对一些垂直类的应用,应该从哪些角度去搜集数据比较好?如何构建高质量的数据集?
张家兴:其实我们整个数据也都是逐渐收集的,从最开始只有二三十个数据集。但慢慢通过训练,比如缺了哪部分能力,我们就会针对性收集一部分这样的数据,同时会有我们自己的一些经验积累,比如一些数据处理之类的。
最后如果实在没有,我们会自己构造一些数据。比如针对多人对话等,我们都有各种各样的不同类型数据集在里面。
问:为什么做了这么多专项能力模型?为什么不在同一个模型上同时提升这些能力?
张家兴:我们有几点考虑,第一是我们事先选定了这样的模型尺寸,选择这个模型尺寸之后,再想让这个模型具备什么能力,这就是受限情况下的命题。这是非常大的成本优势。
这个时候想把所有能力放进来一个大模型里,但是这些能力在时间和空间上是互斥的。在空间上,某些能力是互斥的,比如当时我们做了逻辑推理方面的问题,比如数学题的问题和写作类的问题它们是有冲突的。另外是时间上的冲突,在某一个时刻某个能力是最强的,但其他能力可能不是很强。
既然下游的场景只是需要单一能力,那我们干脆去只选取某些特定的数据集训练某些任务,就是专用模型。
问:你讲到不稳定「训飞」问题被解决了,这是如何被解决的?
张家兴:这里面很关键的一点,第一是我们的训练上做了调整,我们在分布式训练时在源码层做了修改,确实训练的稳定性强了很多。我们当年训练 Ziya-LLaMA-13B 的时候,那个训练集的曲线就稳定了。我们是一个非常专注于训练技术的大模型团队,这也是我们能够持续做出好模型的保障。
问:对于公域大模型和私有化大模型的讨论,模型一定要私有化吗?比如我要做一个 to C 的应用,我可以不做私有化部署吗?
张家兴:首先,我们发现我们的合作伙伴有一些数据安全合规和隐私方面的需求,他们的数据不能去使用公有的模型去做训练。第二,他们需要有一个非常深度的场景,定制的需求,不管 to B 的产品还是 to C 产品,他们都希望在自己的场景去用。
这个时候,公有的大模型或者通用大模型底座并不能完全满足他们每一个需求,所以私有化训练和私有化部署就成为他们的必选项。
本文内容部分来自网络,仅供参考。如有侵权,请联系删除。