红杉资本:生成式AI 一个创造性的新世界

撰文:Sonya Huang和Pat Grady

编译:深思圈

AIGC(AI-Generated Content 人工智能生成内容)是最近的热门话题。随着大量应用的实施,人工智能生成图片、文本、音频甚至视频逐渐进入人们的日常生活。

就在几个小时前,红杉美国官方网站发表了最新一篇题为《红杉美国》的文章《Generative AI: A Creative New World》代表新一轮Paradigmm的文章 shift(范式转移)开始吗?

让我们来看看这篇文章。原作者是红杉的两位合作伙伴:Sonya Huang和Pat Grady,有趣的是,在文章的作者栏目中,GPT-3的名字被突然写出来,文章插图也是由Midjourney制作的。本文本身就是AIGC的落地表现。以下是原文的翻译,希望能给大家带来新的发现和思考。

导语

人类擅长分析事物,机器在这方面甚至做得更好。机器可以分析一组数据,并找到许多用例(use case)在这些任务中,它们变得越来越聪明,无论是欺诈还是垃圾邮件检测,预测你的交货时间或应该给你看哪个tiktok视频。这被称为“分析人工智能”(Analytical AI)或传统人工智能。

但人类不仅擅长分析事物,而且擅长创造。我们写诗,设计产品,制作游戏,编写代码。直到最近,机器才有机会在创造性工作中与人类竞争——它们被降级为只做分析和机械认知的工作。但最近,机器开始尝试创造有意义和美丽的东西,这个新类别被称为“生成人工智能”(Generative AI)这意味着机器正在生成新的东西,而不是分析现有的东西。

在某些情况下,生成式人工智能不仅变得更快、更便宜,而且比人类创造得更好。从社交媒体到游戏,从广告到建筑,从编程到平面设计,从产品设计到法律,从营销到销售,每一个需要人类创造的行业都在等待机器的重建。生成人工智能可以完全取代某些功能,而其他功能更有可能在人与机器之间紧密迭代的创作周期中蓬勃发展。但在广泛的终端市场上,生成式人工智能应该解锁更好、更快、更便宜的创作。人们期待的梦想是:生成人工智能将创造和知识工作的边际成本降至零,产生巨大的劳动生产率、经济价值和相应的市场价值。

生成人工智能可以处理的领域包括知识工作和创造性工作,涉及数十亿劳动力。生成人工智能至少可以提高这些劳动力的效率和创造力10%。它们不仅变得更快、更高效,而且比以前更有能力。因此,生成人工智能有潜力产生数万亿美元的经济价值。

01.为什么是现在?

生成式人工智能与更广泛的人工智能相同,“为什么是现在?”(Why now)“原因:更好的模型,更多的数据,更多的计算能力。这个类别的变化速度比我们能捕捉到的要快,但有必要在背景下回顾最近的历史。

第一波:小模型(small models)占主导地位(2015年前),小型模型被认为是理解语言的“最先进的”。这些小型模型擅长分析任务,可用于从交货时间预测到欺诈分类。然而,他们没有足够的表达一般生成任务的能力。生成人类级别的写作或代码仍然是一个白日梦。

第二波:规模竞赛(2015-至今),Google Research是一篇里程碑论文(Attention is All You Need https://arxiv.org/abs/1706.03762)描述了一种新的神经网络架构,用于理解自然语言,称为transformer,它可以生成高质量的语言模型,并行性更强,训练时间更少。这些模型是简单的学习者,可以相对容易地定制到特定的领域。

果然,随着模型越来越大,它们开始输出达到人类水平的结果,然后是超人的结果。从2015年到2020年,训练这些模型的计算量增加了6个数量级,在写作、语音、图像识别、阅读和语言理解方面超过了人类的表现水平。OpenAIGPT-3性能特别突出:该模型的性能比GPT-2有了很大的飞跃,从代码生成到笑话编写的任务都提供了优秀的Twitter demo来证明。

尽管所有的基础研究都取得了进展,但这些模型并不常见。它们巨大且难以运行(需要特殊的GPU配置),不能被更多的人广泛使用(不可用或只进行封闭测试),而且云服务成本昂贵。尽管存在这些限制,但最早的生成人工智能应用程序已经开始竞争。

第三波:更好、更快、更便宜(2022+),计算能力变得更便宜,新技术,如扩散模型(diffusion models),降低了培训和运营的成本。研究人员继续开发更好的算法和更大的模型。开发人员的访问权限从封闭测试扩展到开放测试,或在某些情况下扩展到开源。

对于那些渴望接触LLMS的人来说,(Large Language Model 对于大语言模型)的开发人员来说,探索和应用开发的闸门现在已经打开,大量的应用程序开始出现。

第四波:杀手级应用程序(现在)出现了。随着平台层的稳定,模型继续变得更好、更快、更便宜,模型访问趋于免费和开源,应用层的创造力已经成熟。

就像移动设备通过GPS一样、就像相机和网络连接等新功能释放了新的应用程序一样,我们预计这些大型模型将刺激生成人工智能应用程序的新浪潮。就像十年前移动互联网的拐点被一些杀手应用程序打开一样,我们预计生成人工智能的杀手应用程序也将出现,比赛开始了。

02.市场格局

以下是一个示意图,解释了为每个类别提供动力的平台层,以及将在其上构建的潜在应用类型。

模型

文本(Text)它是最先进的领域。然而,自然语言很难正确使用,质量非常重要。如今,这些模型在一般的短篇写作中非常出色(但即便如此,它们通常用于迭代或初稿)。随着时间的推移,模型变得越来越好。我们应该期待看到更高质量的输出、更长的内容和更好的垂直领域深度。

代码生成(Code generation)就像GitHub一样,短期内可能会对开发人员的生产力产生很大的影响 Copilot的表现。此外,代码生成将使非开发人员更容易创造性地使用代码。

图片(Images)这是最近才出现的现象,但它们已经像病毒一样传播开来。在twitter上分享生成的图片比文本有趣得多!我们正在看到不同美学风格的图像模型和用于编辑和修改生成图像的不同技术。

语音合成(Speech synthesis)已经出现了一段时间,但消费者和企业的应用才刚刚开始。对于电影和播客来说,对于样品的高端应用程序,听起来不机械,具有人类质量的声音是一个相当高的门槛。但就像图像一样,今天的模型为进一步优化或实现应用程序的最终输出提供了一个起点。

视频和3D模型远远落后,人们对这些模型的潜力感到兴奋,因为它们可以打开大型创意市场,如电影、游戏、虚拟现实、建筑和物理产品设计。我们应该期待在未来1-2年内看到基本的3D和视频模型。

还有许多其他领域,如从音频和音乐到生物和化学,都在开发基本模型。下图是基本模型进展和相关应用程序的可能时间表,其中2025年及以后只是一个猜测。

应用程序

以下是一些令我们兴奋的应用程序,它们只是其中的一部分。事实上,它们比我们捕捉到的要多得多。我们被创始人和开发人员梦想的创造性应用程序所吸引。

文案(Copywriting):越来越多的人需要个性化的网页和电子邮件来促进销售、营销策略和客户支持,这是语言模型的完美应用。这些副本通常形式简单,有固定的模板,加上这些团队的时间和成本压力,应该大大促进自动化,增强解决方案的需求。

垂直行业的写作助手(Vertical specific writing assistants):目前,大多数写作助手都是通用的。我们相信,从法律合同编写到剧本编写,为特定的终端市场构建更好的生成应用程序有很大的机会。这里的产品差异化体现在特定工作流模型和UX互动的微调上。

代码生成(Code generation):目前的应用程序促进了开发人员的发展,大大提高了他们的工作效率。在安装Copilot的项目中,它生成了近40%的代码。但更大的机会可能是为C端消费者提供编程开发能力和学习提示(learning to prompt)它可能成为最终的高级编程语言。

艺术生成(Art generation):整个艺术史和流行文化世界现在都被编码成这些大型模型,这将允许任何人探索过去可能需要一辈子才能掌握的主题和风格。

游戏(Gaming):这方面的梦想是用自然语言创造复杂的场景或可操作的模型。这种最终状态可能还有很长的路要走,但短期内有更直接的选择,比如生成纹理和天空盒艺术(skybox art)。

媒体/广告(Media/Advertising):想象自动化代理的潜力,实时优化消费者的广告文案和创意。多模式生成的最佳机会是将销售信息与互补的视觉效果相结合。

设计(Design):设计数字和物理产品的原型是劳动密集型的迭代过程,人工智能根据粗略的草图和提示制作高保真效果图已成为现实。随着3D模型的出现,生成设计过程将从制造和生产延伸到物理,您的下一个iPhone 机器可以设计APP或运动鞋。

社交媒体和数字社区(Social media and digital communities):使用生成工具来表达自己有新的方式吗?随着Midjourney等新应用学会了在社交网络上像人类一样创建,这将创造新的社交体验。

03.生成人工智能应用的分析

生成人工智能应用程序是什么样子的?以下是一些预测:

微调智能和模型

基于GPT-3或Stable的生成AI应用 对于Diffusion等大型模型,通过这些应用程序获取更多的用户数据,他们可以微调模型,一方面提高模型的质量和性能,另一方面降低模型的尺寸和成本。

我们可以把生成人工智能应用看作是一个UI层和大型通用模型“大脑”(big brain)上面的“小脑”(little brain)”

形成的因素

如今,生成人工智能应用程序在很大程度上以插件的形式存在于现有的软件生态系统中。例如,代码生成在您的IDE中,图像生成在Figma或Photoshop中,甚至Discord机器人也是将生成人工智能放入数字社区的工具。
还有少量独立的生成AI Web应用程序,如Jasper和Copy,在文案中.ai,Runway用于视频编辑,Mem用于笔记。

插件的形式可能是生成人工智能应用在早期阶段更好的切入点,它可以克服用户数据和模型质量“先有鸡还是先有蛋”问题(这里具体指的是:一方面,它需要分发来获得足够的数据来改进模型,另一方面,它需要一个好的模型来吸引用户)。我们已经看到,这一策略在消费者和社交市场等其他市场类别中取得了成功。

交互范式

如今,大多数生成人工智能演示都是“一次性的”:你提供一个输入,机器吐出一个输出,你可以保留它或扔掉它,然后再试一次。未来,模型将支持迭代,您可以使用输出来修改、调整、升级和生成变化。

如今,生成式人工智能输出被用作原型或初稿。应用程序非常擅长抛出许多不同的想法来继续创建过程(例如,标志或建筑设计的不同选项),他们也非常擅长初稿,但用户需要最终完成草案(例如,博客帖子或代码自动完成)。随着模型变得越来越智能,在用户数据的帮助下,我们应该期待这些草稿变得越来越好,直到它们足够好,可作为最终产品使用

行业领导能力持续

最好的生成AI公司可以通过用户粘性、数据和模型性能两者之间形成的飞轮具有可持续的竞争优势。该团队必须通过以下方法来实现飞轮:

用户粘性极佳→将更多的用户粘性转化为更好的模型性能(及时改进、微调模型、选择用户作为标记训练数据)→利用优秀的模型性能促进更多用户的成长和留存。

他们可能会专注于特定的领域(如代码、设计和游戏),而不是试图解决所有人的问题。他们可能首先将深度集成到现有的应用程序中,以便在此基础上使用和分发自己的程序,然后尝试用人工智能原始工作流取代现有的应用程序。以正确的方式构建这些应用程序需要时间来积累用户和数据,但我们相信最好的应用程序将是持久的,并有巨大的机会。

04.困难和风险

相关推荐