生成式人工智能现状研究

(整期优先)网络出版时间:2024-03-22
/ 3

生成式人工智能现状研究

王骁睿

身份证号:45030220020915203X

一、生成式AI应用进入大爆发时代

生成式人工智能是自个人PC出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及ChatGPT等一系列“杀手级”应用的诞生,生成式AI在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式AI的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:

(1)专家系统:上世纪50年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966年MIT发布的世界上第一台聊天机器人Eliza可以看作生成式AI最早期的产品之一。Eliza能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限。

(2)机器学习与神经网络:1980年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20世纪90年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI技术的突破,AI可以开始基于神经网络创建逼真和有创意的内容。

(3)深度学习:2012年后,深度学习在人工智能领域中的应用将生成式AI带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和GPU加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式AI依然建立在深度学习的基石之上。

(4)大模型:2017年,Google发布著名论文《Attention is All You Need》,提出了基于一种新的神经网络——Attention注意力机制所构建的模型Transformer,2018年OpenAI和谷歌分别推出了GPT模型以及BERT模型,均是在Transformer的基础上构建,Transformer及GPT模型标志着生成式AI在文本领域的重大飞跃。与此同时,伴随着VAEs、扩散模型、神经辐射场、CLIP等一系列生成算法和多模态模型的不断成熟,生成式AI的时代正式开启。

二、模型、算力、生态推动使AI应用进入大爆发时代

(1)算法及模型的快速进步:2017年Transformer模型及2022年ChatGPT的发布标志着GenAI在文本领域的重大飞跃,并在多项能力上超越了人类基准,随着未来更强大的语言大模型(如GPT-5),以及多模态大模型和视觉大模型的技术突破,将带动AI应用的持续进化。

(2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增导致了算力成本的持续上涨,但是随着英伟达算力芯片的不断更新迭代,微软、亚马逊、谷歌等在AI云服务资本开支的不断加大,AI应用的发展将得到更加强有力的支撑。

(3)AI生态的逐渐成熟:AI组件层(AIStack)的完善和产业分工细化,为AI应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。

本轮生成式AI技术的最大突破来自于底层大模型,GPT作为当前全球最强大的语言大模型,从2018年5月GPT初代版本,到2023年3月的GPT-4,仅5年时间模型的性能就产生了质的飞跃。在GPT模型快速进化的背后,一方面是对训练方法的持续迭代,从GPT-1的半监督式学习,到GPT-2舍弃了微调阶段,再到GPT-3的In-context学习和海量参数,以及引入了基于人工反馈的强化学习之后的ChatGPT;另一方面,在模型参数规模扩大背后,是OpenAI对研发和算力的持续高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨胀。GPT-4相较于之前版本的GPT模型,在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,在许多能力上已经超越了人类基准。同时大模型作为能够在海量、广泛、非结构化数据集(例如文本和图像)上进行训练的大规模深度学习模型,它的强大之处不仅在于文本生成,大模型可以适应各类不同的任务,不仅可以用于聊天机器人,同时也可以用来创建新的蛋白质序列,并且当前已经成为了图像、代码、音频、音乐、视频和3D模型等各种模态应用的底层框架。

随着大模型家族的不断丰富,出现了单向/双向、开源/闭源等不同的技术路线。

(1)单向/双向:在Transformer模型2017年诞生之后,2018年OpenAI和Google发布的GPT-1和BERT采用了Transformer不同的框架,6月OpenAI发布的GPT-1仅使用了Transformer的Decoder框架(单向架构),10月,Google发布的BERT模型采用Transformer的Encoder框架(双向架构),作为一个拥有3倍GPT参数量的更大体量的语言模型,BERT在当时的多项测评以及业内影响力等方面,要领先于GPT的初代版本。2020年,随着GPT-3的惊艳表现,单向模型在语言生成方面的优势开始展现(特别在大参数情况下),Decoder路线逐渐占据主导,当前主流大模型大多采用Decoder框架或大Decoder小Encoder框架。

(2)开源/闭源:大模型的开源/闭源,与iPhone/Android、Windows/Linux有类似之处。包括GPT-4,以及谷歌的Bard、Claude等大模型均是闭源模型,优势在于性能强大和易于上手,目前依然是绝大多数海外主流生成式AI应用的首选;而LLaMA2、Stable diffusion,Eleuther,GLM130B,OPT,BLOOM引领的开源模型优势在于灵活性和低成本,特别LLaMA2的发布,宣布支持商业化,让应用层的公司可以以非常低成本来使用大模型,可以基于开源模型进行私有化部署并实现差异化功能的开发。在过去的一年里,开源阵营模型的能力和数量有了显着的提高,开源框架目前也正在成为越来越多应用的选择。

目前大模型的应用已经不局限于NLP领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC的底层框架。许多跨领域的AI应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion Model)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。

(1)文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的输出、更长形式的内容和更好的垂直特性。

(2)图像生成:过去一年技术进化速度最快的领域,2014年出现生成对抗网络GAN是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP模型等技术的成熟,文生图的能力大幅增强,包括DALL-E2、Stable diffusion等主流文生图应用均是基于扩散模型所构建。

(3)视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法。

(4)3D模型生成:3D模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于2020年于ECCV会议上提出,目前已经成为3D模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间。

(5)代码生成:GPT-4等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码。

(6)音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建AI虚拟歌手,更加趋近于真人发声效果,典型应用如:AI孙燕姿。

(7)其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。

在语言大模型和多模态大模型快速取得质变的同时,视觉领域的基础大模型Vision Transformer(VIT)在2020年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。Vision Transformer(VIT)于2020年由Google提出,可以看成是Transformer的图形版本,在尽可能少的改造下将标准的Transformer模型直接迁移至图像领域变成Vision Transformer模型。Vision Transformer最初用于处理图像分类任务,2020年很多后续的视觉模型都是基于VIT建立。为了将Transformer模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer的输入以模拟在NLP领域中词组序列输入。

当前视觉大模型相当于20年前后的语言大模型:

(1)Transformer于2017年由Google提出,Vision Transformer于2020年提出。

(2)当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级。

(3)从GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。

巨头持续加码算力基础设施,未来AI算力将更快、更便宜,并更好的支撑应用层的快速发展。多年来,英伟达GPU性能的突破基本遵循摩尔定律,GPU的晶体管数量每两年增加一倍。近年来,随着芯片架构的进步以及张量核心和Transfomer引擎等功能的引入,进一步提高了英伟达GPU的吞吐量和效率,GPU进化的速度超越了摩尔定律。同时除了硬件之外,英伟达围绕CUDA构建的软件生态系统,为开发人员提供端到端的解决方案,简化了人工智能应用的开发、部署和管理,已经成为了各行业人工智能的操作系统层。除英伟达外,全球科技巨头均在加速算力侧的布局,其中软件厂商开始自研芯片,而硬件厂商则在搭建算力平台,包括微软、亚马逊、谷歌、甲骨文和Facebook等软件及云服务巨头正在加大对AI算力云服务的资本开支,并提供更丰富的AI云服务模块、涉及NLP、机器学习、计算机视觉等各个领域;另一方面,微软、亚马逊、谷歌等均在加大自研AI芯片的投入。因此虽然短期来看,大模型训练的需求的急剧增加推高了算力成本,但随着未来芯片性能的快速进步以及AI算力供需的逐渐平衡,应用层的发展将得到更好的支撑。

AI组件层(AIStack)是AI生态的重要组成部分,为模型训练、数据整合、应用开发、应用部署等提供支撑,AI组件层的完善和产业分工细化,代表AI生态的逐渐成熟。AI组件层具体包括了模型训练、数据整合、应用开发、应用部署等几个关键环节,各环节均已经初步跑出了一系列组件工具,可预见随着各个头部工具厂商不断拓展自身的产品线,AI组件层的一体化和平台化程度会越来越高。除了新兴厂商之外,IBM、埃森哲、德勤等IT咨询公司也推出了AI解决方案,来支撑AI应用的开发与部署,具体来看:

(1)应用框架:通过提供了一套组件和接口,将开源模型、API和数据库等不同的外部组件链接在一起,能够帮助应用开发快速构建基于大模型的AI应用,来简化应用的开发和创建过程,代表厂商包括LangChain,Dust.tt,Fixie.ai,GPT Index和Cognosis。

(2)数据整合:由于基础模型仅限于对训练它们所依据的事实进行推理,而应用和垂类模型需要使用时效性强以及垂直领域和私有数据来推出面向专业领域的应用,特别是在金融、医疗等专业性强以及天气、体育、新闻等实效性强的领域,应用程序开发人员需要模型调用外部数据源,通过外挂等方式来实现数据整合,而非再次训练底层大模型。涉及工具包括了向量数据库Pinecore、Chroma、Redis等、上下文窗口LangChain、LlamaIndex等、数据加载器Unstructured.io、Databricks等。

(3)模型训练:应用开发对底层模型有多种选择,可以选择由OpenAI、Anthropic或Cohere等供应商创建的闭源模型,或者使用开源模型,以及可以选择训练自己的模型,而且模型尺寸、模态、输出质量、上下文窗口大小、成本和延迟各不相同,最佳设计通常需要开发人员在使用多个模型的组合。涉及到的AI组件包括:模型库HuggingFace、Replicate等、深度学习框架TensorFlow、PyTorch、DeepSpeed等、训练工具Mosaic、TOgether、Cerebras等,托管服务OctoML、VertexAI等。

(4)评估工具:一方面,在模型训练过程中,开发人员需要使用多种工具来实现模型的快速开发和迭代,基于数据来驱动提示工程、超参数、微调、模型相关的实验,相关工具包括Statsig、Comet、Mlflow等;另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括WhyLabs、datadog等。

(5)应用部署:将AI应用部署到实际应用环境中,可以采用Fixie、Gradio等框架,或者采取第三方厂商的服务来完成应用的部署实施。

三、生成式人工智能发展过程中可能面临的风险

技术发展风险:生成式人工智能发展迅速,但技术的发展仍存在许多未知的挑战和风险,导致产业变革和应用落地节奏不及预期。贸易摩擦加剧风险:目前AI训练芯片主要由海外厂商提供,若中美贸易摩擦加剧,将面临“卡脖子”风险,导致相关技术和产品研发不及预期。数据安全风险:AI需要通过输入大量的数据输入来不断优化自身性能,一方面存在数据泄露和隐私安全问题等,另一方面数据不完备、数据投毒、数据滥用等行为也将会对相关公司造成严重负面影响。道德和伦理风险:AI涉及道德和伦理价值观的问题,在具有重大后果的决策环境中,AI可能表现出意想不到的行为或做出具有不可预见后果的决定。

参考文献

[1]范德志,于水.生成式人工智能大模型助推实体经济高质量发展:理论机理、实践基础与政策路径[J/OL].云南民族大学学报(哲学社会科学版),1-9[2024-01-06]https://doi.org/10.13727/j.cnki.53-1191/c.20240004.002.

[2]刘金瑞.生成式人工智能大模型的新型风险与规制框架[J/OL].行政法学研究,2024,(02):17-32[2024-01-06]http://kns.cnki.net/kcms/detail/11.3110.D.20240104.1414.004.html.

[3]刘邦奇,聂小林,王士进等.生成式人工智能与未来教育形态重塑:技术框架、能力特征及应用趋势[J/OL].电化教育研究,2024,(01):13-20[2024-01-06]https://doi.org/10.13811/j.cnki.eer.2024.01.002.