来源:钛资本研究院
在ChatGPT席卷全球后,人工智能被推到了新的风口,作为颠覆性的智能生产力工具,早已成为热门话题。当前,全球发达国家和地区均把人工智能产业发展上升到国家战略,相关新兴技术和应用不断落地。随着新一轮AI浪潮的深入发展,一场由数智化技术引领的工业革命呼之欲出,同时也拉开了各行各业“大模型时代”的序幕。
为何大型语言模型能够引领AI的潮流?国内AI有哪些投资机会?近期,钛资本邀请到容亿资本投资总监林骏超进行分享,主题是:从一级市场角度看AI的投资机会。林先生拥有英国伦敦大学学院(UCL)的电子电气工程学士学位和一等荣誉硕士学位,有三年创业经验和六年股权投资经验。其投资重点包括基础软件开发工具、元宇宙和AIGC等领域,其中包括景业智能、智能开源中国等项目。本次分享主持人是钛资本董事总经理吴凯,以下为分享实录:
大语言模型为何能独领AI潮头
AI发展简史
自香农在1950年提出计算机博弈以来,AI已经历了超70年的发展历程。我们大致可将其分为四个阶段:早期启蒙+专家系统时代(50-70年代)、机器学习+计算机视觉时代(80-90年代)、深度学习时代(2006-2017)、多模态+大语言模型时代(2018-至今)。
早期启蒙阶段的里程碑事件发生在1956年的达特茅斯学院夏季研讨会,会上首次提出了人工智能概念,正式拉开了人工智能的序幕,期间相继出现了1966年MIT开发的首个聊天机器人ELIZA,首个专家系统DENDRAL,以及1976年David Marr提出计算机视觉和计算神经学概念。
机器学习时代,有一位里程碑式的人物,就是前段时间从谷歌离职的AI教父——杰弗里·辛顿。他在1986年提出反向传播算法,使得大规模神经网络训练成为可能,为后来的神经网络和深度学习铺平了道路。同时,在这一阶段内,也出现了许多里程碑事件和人物,例如1979年的西洋双陆棋比赛,以及1997年深蓝战胜国际象棋世界冠军卡斯特罗夫。2006年,杰弗里·辛顿等人正式提出深度学习的概念,从而将AI引入了第三阶段——深度学习时代。
在深度学习时代中,杰弗里·辛顿在2012年提出卷积神经网络AlexNet并在ImageNet图像分类竞赛上夺魁,整体错误率比第二名低了10.8%,正式开启了计算机视觉的深度学习元年。2013年3月,谷歌将杰弗里·辛顿的创业公司DNNResearch以4400万美元收购,自此谷歌开始引领全球AI的发展;2015年全球最具影响力的深度学习框架TensorFlow开源;2016年AlphaGo以4:1战胜九段围棋高手李世石;2017年推出Transformer模型,自此拉开了当下大语言模型时代的巨幕。同时,伴随着这波谷歌引领的AI浪潮,Scale AI、HuggingFace、OpenAI等AI独角兽也相继于2016年成立。互联网巨头Meta也在2017年开源了更好用的深度学习框架Pytorch。
大语言模型时代的主导者OpenAI,最早于2019年4月初露头角,其研发的OpenAI Five以2:0的绝对优势击败了Dota2世界冠军OG战队,随后分别于2020年5月发布了1750亿参数的GPT-3、2022年11月推出ChatGPT(GPT-3.5)、2023年3月推出GPT-4,自此正式接棒谷歌,开始引领全球大语言模型的发展。而谷歌、Meta、微软等互联网/软件巨头也调整战略,积极参与到大模型竞赛之中。自2022年年底ChatGPT以来,我们看到全球各大厂商纷纷入局大模型,国内高校、科技巨头、初创企业等,也不断推出各类大模型产品和应用。
国内的AI发展史最早可以追溯到1998年成立的微软亚洲研究院,如今国内熟知的创新工场、百度、金山软件、阿里巴巴、商汤、旷世等公司,背后的创始人和核心团队都来自于微软亚洲研究院。国内第一批AI公司科大讯飞、大华、海康威视于2008年-2010年前后在A股上市。2011年-2015年,国内涌现出不少计算机视觉创业企业,例如AI四小龙旷视(2011年成立)、依图(2012年成立)、商汤(2014年成立)、云从(2015年成立)等。2018年,国家队——北京智源人工智能研究院成立。这次大型模型的发展也受益于这股浪潮。2002年以来,寒武纪、商汤、海天瑞声、云从等AI相关企业相继在科创板和港股上市。
ChatGPT和GPT-4的魅力
为什么ChatGPT和GPT-4能让我们直观的感受到这波AI与过往的与众不同和强大之处?主要可以从以下几个方面来看:
第一,从用户角度来看,这次属于非常类人的交互方式。与ChatGPT进行对话时,内容是逐字逐句生成的,一边在思考,一边在生成回答。同时,它还具备多轮对话的能力。此外,它还能扮演一些角色,例如翻译官、心理咨询师等。
第二,泛化能力,主要体现在没有上下文的情况下,能够快速理解需求,并给出相对准确的回答。这背后依赖于海量的预训练语料和提示工程的支持。
第三,思维链。能够理解上下文和语境,甚至是长文本。如最新发布的Claude2,上下文处理能力达到10万token,基本可以将整本书喂进去让它处理。同时,还有强大的逻辑推理能力,能够将问题按照人类的思维处理方式逐步拆解和推导。
这些能力其实都是伴随着模型参数的增加以及训练时间的延长,才涌现出来的。此外,我们可以看到GPT-4在人类各项考试方面,成绩也非常优秀,基本上可以达到准大学生的水平。
大语言模型的构成
回到大语言模型本身,推荐大家去看OpenAI联合创始人Andrej Karpathy之前在微软开发者大会上分享的State of GPT主题演讲。他将大模型的训练过程拆解成了四个阶段:
预训练阶段,需要庞大的、相对低质量的训练数据(包括书籍、互联网爬取、论文等)和整个大模型训练过程中的99%的算力和时间,来训练出一个基础模型。例如,训练一个6500亿参数的LLaMA基础模型,需要2048张英伟达A100 GPU,耗时21天,整个训练成本在500万美元左右。因此,训练一个基础模型对于初创企业来说并不友好,这样的资源和成本一般只有大厂才具备。
第二步是在基础模型上进行有监督、微调,从而训练出SFT model,例如Vicuna-13B等常见的开源模型,都是经过监督微调的模型。在这个阶段,只需要提供少量的、高质量的数据,算力需求也比较少。
第三、第四阶段是奖励建模和强化学习阶段,也就是RLHF人类强化反馈学习。通过这两个阶段,模型的输出结果会远远优于监督微调模型和基础模型,但会牺牲掉基础模型的熵。
从一级市场产业角度看AI机遇
从一级市场投资角度系统性地看AI投资机遇,主要可以将其分为基础层、部署层和应用层,AI模型社区贯穿了这三层。
基础层又可以分为基础设施层、数据层和算法层。
基础设施层的最底层是算力,也是目前面临最直接卡脖子的地方,如今英伟达和AMD的GPU都存在对国内禁运的问题。国内算力龙头华为鲲鹏,也面临流片难题,未来中国在高端算力方面可能会面临越来越大的压力。同时,这里还存在GPU利用率的问题,即便是OpenAI,有大量英伟达工程师常驻在现场人工调优,但其GPU利用率也只有50%-60%。算力之上是围绕着大模型的基础软件层,例如AI原生的数据存储、数据传输、数据安全等围绕着数据的各类工具和开发运维平台,具体包括向量数据库、LLMOps、MLOps等。
数据层可能存在较多机遇,因为基础模型未来可能是头部公司在做,同时还会有大量开源的基础模型存在,所以没有必要花大量资金去开发自己的基础模型。应该将精力放在垂直行业和企业自身的数据积累,以及如何形成客户愿意付费的大模型应用上。目前,大模型最大的痛点是如何获得高质量数据集和垂直行业数据集,大家看到了大模型在工业、科学、医疗、法律、金融、教育等领域的潜力。未来的机会可能就在如何高效地获取高质量数据,如何处理多模态数据,如何标识符化,如何让数据资产化,如何确权,如何交易,如何保护安全等方面。
算法层的核心在于深度学习框架和基础模型
深度学习框架可谓是AI的操作系统,向下统筹调用算力资源,向上承接AI算法模型的构建能力,提供大量的算子库、模型库以及文档教程等,本质上也是一种生态,降低开发门槛。目前,全球主流的深度学习框架主要是谷歌的TensorFlow和Meta的Pytorch,国内主要有百度飞桨、华为昇思和之前被光年之外收购的Oneflow。
基础模型本身也存在着多样性,例如从技术路径上来说有CNN、RNN、GAN、Transformer等,Transformer模型又可以分为自编码模型、自回归模型、编码器-解码器模型等,从形式上又可分为闭源和开源等。这个方向是最有可能诞生出市值千亿,甚至万亿的公司,但同时也是竞争最激烈的主战场。
在百模大战的时代,模型评测成为了衡量各类模型能力的核心工具。目前,市面上已出现面向传统小模型(GLUE、SuperGLUE等)、针对大语言模型(HELM、BIG-Bench等)和针对中文大语言模型(SuperCLUE、C-Eval等)的各类评测工具。像SuperCLUE和C-Eval,在其评测集内增加了大量具有中国特色的问题(毛泽东思想、马斯克主义基本原理等)和中文特性(成语、诗词、文言文等)等维度。从评测结果来看,除了GPT-4、GPT-3.5和Claude,国内大模型产品在整体评测表现上都优于其他海外模型,因此训练中文大模型的必要性非常高。
应用层可以分为通用大模型和垂直行业大模型,我们主要关注通用大模型领域内的新一代AI赋能生产力工具和各垂直行业领域的大模型应用机遇。
toC—AI赋能生产力工具
疫情时代,Notion、Figma、Canva等以协作为主题的生产力工具发生了变革。同样,在这波AI浪潮下,生产力工具也将迎来新一次的变革。
如今我们看到大模型已在文本、代码、图像、音乐、视频、3D等方面不同程度的渗透,各类新产品和新应用层出不穷,例如文本领域的聊天机器人和办公产品copilot,代码领域的GitHub copilot,图像领域的Midjourney和Stable Diffusion,之前音乐领域火爆一时的AI孙燕姿,视频领域的runway等等,国内如百度、金山办公、印象笔记、智谱华章等也纷纷推出了类似的AI产品,都在不同程度地改变传统生产力工具的形态,但目前还仅限于各领域工业生产过程中的效率工具,无法实现真正意义上的AGI。
同时,可以看到微软office、Adobe Photoshop、Unity、Notion等厂商也在积极拥抱这波AI浪潮,将AGI能力嵌入到自家的产品和工具链中。原以为Midjourney和Stable Diffusion的出现会完全替代Photoshop,但后来发现AGI因为在可控性等方面的问题,反而让结合AI生成能力的Photoshop,变得更加强大和好用。
3D领域是目前最难实现AI化的领域之一,核心因素主要在于高质量的3D数据太少。目前,3D内容的AGI主要还是NVIDIA、Unity、Stability.ai和科研院所在探索和引领,但现阶段都还是Demo和散点状的工具为主,离真正能够应用到影视特效、游戏、元宇宙等工业领域还有很长的路需要走。
toB—垂直行业大模型
目前,各大厂推出的大模型产品,大多属于通用大模型,但面向垂直行业时,B端客户需要的是高准确性、高一致性、轻部署的大模型,能够用较少的数据、较低的算力、高效地解决具体场景问题。华为最新发布的盘古3.0大模型就在基础大模型之上,增加了N个L1行业大模型和X个L2场景模型能力。
垂直行业大模型的核心关键点在于高质量的行业数据集和模型调优、压缩和部署的工程化能力。这也是投资机会点,就如同云原生时代下的容器机遇一样,大量传统行业中小B企业,需要依靠专业化的容器厂商帮助自己走上云原生的道路。
目前,海外在垂直行业大模型领域已有大量的探索和实践,例如FinGPT领域的BloombergGPT,Bloomberg将过去40年积累的金融数据转换成了3650亿token的金融数据集,并结合通用数据集训练了自己的500亿参数BloombergGPT;LawGPT领域的EvenUp(个人伤害索赔案件文件处理)、Casetest(被汤森路透以6.5亿美元收购)等;MedGPT领域,谷歌的Med-PaLM 2、微软的Nuance(集成GPT-4发布支持语音的医疗病历生成应用程序—DAX Express)等。
最后谈一下海外AGI赛道的资本关注点:从投资数量来看,前五大分别是营销类文本应用、音频、客户支持/客服机器人、图像和MLOps平台;从融资金额角度来看,资金更多地流向了MLOps平台,它的核心价值在于降低开发大模型门槛,其次是客服机器人、音频、数字人及配音、图像。
问答
Q1:做数据标注、辅助AI发展的外包服务公司,最近好像生意也非常好,你们的投资倾向会是怎样?
A:这两个方向目前我们都在关注。数据标注领域主要关注这些公司如何借助大模型的能力来提高标注效率,例如使用GPT-4来标注文本,使用SAM来标注图片等。因为数据标注领域目前的核心竞争点是效率和毛利,谁能够借助大模型能力实现更高效的标注。大模型服务方面,会类似云原生时代下的容器机遇,需要有专业厂商来降低大模型的训练、开发和部署门槛,帮助每个企业实现大模型自由。
Q2: AI现在有TO C和TO B两大类方向,您觉得TO C机会更大还是TO B机会更大?
A:我们更关注TO B。因为TO C领域,有太多的互联网巨头,特别像国内APP应用生态这么强的地方,大厂能够更容易地在自己的APP中嵌入AI能力。因此,我们更关注他们的数据整合能力、商业化理解和工程化能力。
Q3:即便是十亿参数以上的大模型,国内已报告的有80多家。在大模型这块的投资趋势怎么样?开源和闭源的比较会如何选择?
A:对于开源和闭源,要思考如何用好开源以及如何用好开源模型进行商业化,比如LLaMA在开源协议内就有商业化的限制。闭源就需要自己做生态和支持,这可能只有大厂才有能力和财力来维持。
Q4:从AI创业者的角度,可以分成三大类。一类来自大厂,已经有很大名气的创始人。另一类是学院派,来自清华系或其他领域的院士和专家。还有一类偏向草根派的创业者。对于这三类,您更看好哪一类?
A:国内这波大模型浪潮,很多是在Open AI发布了ChatGPT,LLaMA和Bloom等大模型开源之后才出现的,我们目前持观望态度。当然,国内也有不少前瞻性较强的大厂、学院派创业公司在这波大模型热潮出现之前,就已经在探索。
对于学院派团队来说,如何实现商业化,最具挑战。所以我认为未来没有必要自己做到底,如OpenAI和微软的合作,可以将大模型能力赋予大厂。我们现在就在围绕开源中国寻找标的,因为它有IDE产品线,需要代码的copilot,所以在寻找与学院派团队的合作可能性,我认为这种方式更走得通一些。
Q5:在B端有哪些垂直行业最有可能实现商业化突破?
A:由于大模型的能力具有泛化和多模态的特点,像法律领域是一个非常常见的场景,对文字内容的需求非常大。大模型正好具备这种能力,尽管准确性方面仍需要解决一些问题。另外,个人助理类的产品也是一个可以遐想的场景,尽管发展周期可能较长。
本文内容部分来自网络,仅供参考。如有侵权,请联系删除。