《2024生成式AI发展趋势展望及海外巨头企业生成式AI技术革新进展分析报告(42页).pdf》由会员分享,可在线阅读,更多相关《2024生成式AI发展趋势展望及海外巨头企业生成式AI技术革新进展分析报告(42页).pdf(42页珍藏版)》请在本站上搜索。
1、2 0 2 3 年深度行业分析研究报告目录目录 第一部分:生成式第一部分:生成式AI快速发展,技术奇点有望到来快速发展,技术奇点有望到来 第二部分:技术创新百花齐放,海外巨头引领创新第二部分:技术创新百花齐放,海外巨头引领创新2PBmVlX8YlYnVlW6MbP7NsQrRoMtPkPnNqMiNmMoM7NnMrRuOrRpMxNpOrO1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展3资料来源:信通院人工智能生成内容(AIGC)白皮书,CSDN官网,阿里云开发者社区,NIH Record官网,MIT官网,51CTO官网,机器之心官网,腾讯云开发
2、者社区,科技行者官网,雷锋网,澎湃新闻网,winbuzzer官网,MBA百科,Geekwire官网,datamarketinglabs官网,安全客官网,AIGC开放社区公众号,IT之家官网,OpenAI官网,36氪官网,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展41基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键2014年,伊恩古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。GAN使用合作的零和博弈框架来学
3、习,被广泛用于生成图像、视频、语音和三维物体模型。随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。Transformer模型是一种采用自注意力机制的深度学习模型,这一机制可按输入数据各部分的重要性分配权重,可用于自然语言处理(NLP)、计算机视觉(CV)领域应用,后来出现的BERT、GPT-3、laMDA等预训练模型都是基于Transformer模型建立的。图:图:AIGC技术累积融合技术累积融合资料来源:腾讯研究院AIGC发展趋势报告,国元证券研究所1.1 发展历程:算法模型持续迭代
4、,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展51基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键模型模型提出时间提出时间模型描述模型描述变分自动编码(VariationalAutoencoders,VAE)2014年基于变分下界约束得到的Encoder-Decoder模型对。生成对抗网络(GAN)2014年基于对抗的Generator-Discriminator模型对。基于流的生成模型(Flow-based models)2015年学习一个非线性双射转换(bijective transformation),其将训练数据映射到另一个空间,在该空间上分布是可以因子化的
5、,整个模型架构依靠直接最大化log-likelihood来完成。扩散模型(Diffusion Model)2015年扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。Transformer模型2017年一种基于自注意力机制的神经网络模型,最初用来完成不同语言之间的文本翻译任务,主体包含Encoder和Decoder部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本。神经辐射场(Neural Ra
6、diance Field,NeRF)2020年提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图。CLIP(Contrastive Language-Image PreTraining)模型2021年1)进行自然语言理解和计算机视觉分析;2)使用已经标记好的“文字-图像”训练数据。一方面对文字进行模型训练,一方面对图像进行另一个模型的训练,不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值确认匹配。DiT(Diffusion Transformers)模型2023年用Tr
7、ansformer替换了传统的U-Net主干,在潜在空间中对图像进行建模,并通过Transformer的注意力机制学习图像的全局依赖关系,具有良好的可扩展性,可以训练到更高的分辨率和更大的模型容量。资料来源:腾讯研究院AIGC发展趋势报告,经纬创投公众号,国元证券研究所表:主流生成模型一览表表:主流生成模型一览表1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展61基础的生成算法模型是基础的生成算法模型是驱动驱动AI的关键的关键资料来源:虎嗅APP公众号,国元证券研究所通过梳理全球主流大语言模型(LLM)的发展脉络,2018年以来的GPT系列、LLaM
8、A系列、BERT系列、Claude系列等多款大模型均发源于Transformer架构。1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展72预训练模型引发了预训练模型引发了AI技术能力的质变技术能力的质变预训练模型是为了完成特定任务基于大型数据集训练的深度学习模型,让AI模型的开发从手工作坊走向工厂模式,加速AI技术落地。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构Transformer架构,奠定了大模型预训练算法架构的基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语
9、言处理领域的主流。资料来源:IDC2022中国大模型发展白皮书,国元证券研究所图:预训练相当于“通识教育”图:预训练相当于“通识教育”图:图:Transformer模型结构模型结构资料来源:CSDN官网,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展2预训练模型引发了预训练模型引发了AI技术能力的质变技术能力的质变开发者开发者预训练模型预训练模型应用应用参数量参数量领域领域开发者开发者预训练模型预训练模型应用应用参数量参数量领域领域谷歌Gemini 1.5图像、文本、视频、音频和代码理解,生成文本等多模态DeepMindGato多面手
10、的智能体12亿多模态Gemini图像、文本、视频、音频和代码理解,生成文本等多模态Gopher语言理解与生成2800亿NLPBERT语言理解与生成4810亿NLPAlphaCode代码生成414亿NLPLaMDA对话系统NLPOpenAIGPT4图像与文本理解、文本生成等多模态PaLM语言理解与生成、推理、代码生成 5400亿NLPGPT3语言理解与生成、推理等1750亿NLPImagen语言理解与图像生成110亿多模态CLIP&DALL-E图形生成、跨模态检索120亿多模态Parti语言理解与图像生成200亿多模态Codex代码生成120亿NLP微软Florence视觉识别6.4亿CVCha
11、tGPT语言理解与生成、推理等NLPTuring-NLP语言理解、生成170亿NLP英伟达Megatron语言理解与生成5300亿NLPFacebookOPT-175B语言模型1750亿NLPTuring NLPM2M-100100种语言互译150亿NLPStability AIStable Diffusion 语言理解与图像生成多模态MetaLLaMA语言理解与生成70-650亿NLPAnthropicClaude语言理解与生成等NLPLLaMA 2语言理解与生成70-700亿NLPClaude 2语言理解与生成、编程、推理等NLPSAM图像分割10亿CVClaude 3语言理解与生成、编程
12、、推理、图片理解等多模态表:海外主要预训练大模型汇总表:海外主要预训练大模型汇总资料来源:腾讯研究院AIGC发展趋势报告,智东西公众号,澎湃新闻网,Llama family官网,百度云智能官网,Datalearner官网,AIGC开放社区公众号,机器之心公众号,CSDN官网,国元证券研究所81.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展93Scaling Laws:模型容量、数据量、训练成本共同构成了大模型训练的不可能三角。大模型训练的目标是最大化模型性能,模型训练成本(GPU的数量和训练时间等)是受限的,因此一般通过增加数据集大小和增加模型中的参
13、数量两种途径来提升模型性能。预训练数据直接决定预训练数据直接决定AI大模型性能大模型性能资料来源:神州问学公众号,国元证券研究所图:扩展大模型的三个选项:模型容量、数据量、训练成本图:扩展大模型的三个选项:模型容量、数据量、训练成本1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展103预训练数据从数据来源多样性、数据规模、数据质量三方面影响模型性能。以GPT模型为例,其架构从第1代到第4代均较为相似,而用来训练数据的数据规模和质量却有很大的提升,进而引发模型性能的飞跃。以吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不
14、是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。预训练数据直接影响预训练数据直接影响AI大模型性能大模型性能图:预训练数据直接影响模型性能图:预训练数据直接影响模型性能资料来源:阿里研究院公众号,国元证券研究所来源多样性来源多样性针对大模型需求制定配比针对大模型需求制定配比不同场景/领域的数据具有不同的语言特征,对模型能力提升的点也不同。如:书籍语料占比提升,可以提升上下文理解能力足够规模的高质量语料足够规模的高质量语料随着模型参数量的增加,也需要更多数据来训练。只有参数规模突破了100亿以上的大模型才具有“涌现能力”高质量
15、训练集能提高模型精度高质量训练集能提高模型精度,减少训练时长减少训练时长有重复、噪声、错误数据等低质量语料会损害模型性能。如:训练语料有重复,会影响模型对上下文的理解能力数据规模数据规模数据质量数据质量userid:93117,docid:158148,date:2024-04-07,1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展113为了追求更好的模型性能,模型参数规模也与训练数据量同步快速增长,模型参数量大约每18个月时间就会增长40倍。例如2016年最好的大模型ResNet-50参数量约为2000万,2020年的GPT-3模型参数量达1750
16、亿,2023年的GPT-4参数规模则更加庞大。图:大模型参数规模快速增长图:大模型参数规模快速增长预训练数据直接影响预训练数据直接影响AI大模型性能大模型性能资料来源:中国信通院大模型智算服务白皮书,国元证券研究所1.1 发展历程:算法模型持续迭代,发展历程:算法模型持续迭代,AI行业快速发展行业快速发展124市场规模市场规模图:中国人工智能市场规模及预测(单位:亿元人民币)图:中国人工智能市场规模及预测(单位:亿元人民币)资料来源:格物致胜公众号,国元证券研究所图:全球人工智能市场规模及预测(单位:亿美元)图:全球人工智能市场规模及预测(单位:亿美元)资料来源:Statista官网,国元证券
17、研究所随着人工智能技术的不断发展,其应用场景日益丰富,各行各业所汇聚的庞大数据资源为技术的实际应用和持续完善提供了坚实基础。根据第三方咨询机构格物致胜的统计数据,2022年中国人工智能市场规模达到2058亿元,预计2023-2027年市场规模将保持28.2%的复合增长率,2027年中国人工智能市场规模将达到7119亿元。根据statista的统计数据,2023年全球人工智能市场规模达2079亿美元,预计2030年将增至18475亿美元。0100020003000400050006000700080002020202120222023E2024E2025E2026E2027E0200040006
18、00080001000012000140001600018000200002021202220232024E2025E2026E2027E2028E2029E2030E1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI131多模态技术成为大模型主战场多模态技术成为大模型主战场资料来源:Shengqiong Wu等NExT-GPT:Any-to-Any Multimodal LLM,国元证券研究所图:多模态模型实现图:多模态模型实现any to any模态的输入和输出模态的输入和输出多模态较单一模态更进一步,已经成为大模型主战场。人类通过图片、文字、语言等
19、多种途径来学习和理解,多模态技术也是通过整合多种模态、对齐不同模态之间的关系,使信息在模态之间传递。2023年以来,OpenAI发布的GPT-4V、Google发布的Gemini、Anthropic发布的Claude 3均为多模态模型,展现出了出色的多模态理解及生成能力。未来,多模态有望实现any to any模态的输入和输出,包括文本、图像、音频、视频、3D模型等多种模态。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI141多模态技术成为大模型主战场多模态技术成为大模型主战场资料来源:机器之心公众号,国元证券研究所图:多模态模型图:多模态模型GPT
20、-4V的问答展示的问答展示多模态大型语言模型(MLLMs)的通用架构,由1)视觉编码器(Visual Encoder)、2)语言模型(Language Model)和3)适配器模块(Adapter Module)组成。1)负责处理和理解输入的视觉信息,通常使用预训练的视觉模型,如Vision Transformer(ViT)或其他卷积神经网络(CNN)架构,来提取图像特征;2)负责处理文本输入,理解和生成自然语言,语言模型基于Transformer架构,如BERT或GPT系列模型;3)负责在视觉和语言模态之间建立联系。资料来源:Davide Caffagni等The Evolution of
21、Multimodal Large Language Models:A Survey,国元证券研究所图:多模态模型架构图图:多模态模型架构图1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI1523D生成:生成:AI生成技术的下一个突破口生成技术的下一个突破口资料来源:Xiaoyu Li等Advances in 3D Generation:A Survey,国元证券研究所图:图:3D生成技术的方法、数据集和应用生成技术的方法、数据集和应用3D生成技术应用广阔,但仍处在技术临界点以前。3D生成技术可广泛应用于3D虚拟人、3D人脸、3D场景等领域,目前3D生成
22、的主流技术路径大致可分为:1)text-to-2D,再通过NeRF或Diffusion模型完成2D-to-3D,或直接通过2D素材完成3D建模;2)直接text-to-3D,该路径直接使用3D数据进行训练,从训练到微调到推理都基于3D数据。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI163具身智能:智能涌现从虚拟世界走向物理世界具身智能:智能涌现从虚拟世界走向物理世界资料来源:AI前线公众号,国元证券研究所图:图:Figure 01的技术原理的技术原理资料来源:甲子光年公众号,国元证券研究所图:图:RT-2的技术原理的技术原理当大模型迁移到机器人身
23、上,大模型的智能和泛化能力有望点亮通用机器人的曙光。2023年7月,谷歌推出机器人模型RoboticsTransformer 2(RT-2),这是一个全新的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。2024年3月,机器人初创企业Figure展示了基于OpenAI模型的全尺寸人形机器人Figure 01,机器人动作流畅,所有行为都是学到的(不是远程操作),并以正常速度(1.0 x)运行。1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI174通用人工智能还有多远通用人工智能还有多远通用人工智能(Art
24、ificial General Intelligence,AGI)是一种可以执行复杂任务的人工智能,能够完全模仿人类智能的行为。DeepMind提出了一个衡量“性能”和“通用性”的矩阵,涵盖从无人工智能到超人类AGI(一个在所有任务上都优于所有人的通用人工智能系统)的五个级别。性能是指人工智能系统的能力与人类相比如何,而通用性表示人工智能系统能力的广度或其达到矩阵中指定性能水平的任务范围。性能狭义(明确范围的任务或任务集)广义(广泛的非体力任务,包括元认知能力,如学习新技能)0级:No AI1级:Emerging(等于或略优于人类)2级:Competent(至少50百分位的熟手)3级:Expe
25、rt(至少90百分位的熟手)4级:Virtuoso(至少99百分位的熟手)5级:Superhuman(超过100%的人类)Narrow Non-AI(计算机软件、翻译器)General Non-AI(human-in-theloop计算)Emerging Narrow AI(GOFAI4:简单基于规则的系统,例如SHRDLU(Winograd,1971)Emerging AGI(ChatGPT(Open AI,2023)、Bard、Llama 2)Competent Narrow AI(Jigsaw,Siri,Alexa,Google Assistant,PaLl)Competent AGI尚
26、未实现Expert Narrow AI(拼 写 和 语 法 检 查 器,如Grammarly;生成图像模型,如Imagen)Expert AGI尚未实现Virtuoso Narrow AI(Deep Blue(Campbell et all)AlphaGo)Virtuoso AGI尚未实现Superhuman Narrow AI(AlphaFold,AlphaZero,StockFish)Artificial Superintelligence(ASI)尚未实现资料来源:DeepMindLevels of AGI:Operationalizing Progress on the Path to
27、 AGI,国元证券研究所1.2 趋势展望:从单一模态到多模态,从趋势展望:从单一模态到多模态,从AI迈向迈向AGI184通用人工智能还有多远通用人工智能还有多远2023年12月,黄仁勋表示,如果把通用人工智能(AGI)定义为能以“相当有竞争力”的方式完成人类智能测试的计算机,那么在未来五年内,我们将看到AGI。2023年11月,DeepMind联合创始人兼首席AGI科学家Shane Legg在访谈中表示,2028年,人类有50%的概率开发出第一个AGI,并且带领的DeepMind研究团队在Arxiv上公布了一篇名为AGI的水平:实现AGI道路上的操作进展论文,具体阐述了AGI的路线图和时间表。
28、2020年,谷歌机器人团队的软件工程师Alex Irpan认为,到2035年我们有10%的概率实现AGI,但到了2024年,他认为在2028年就有10%的概率接近AGI,到2035年则有25%的概率实现AGI。图:对图:对AGI时间线的预测变得更乐观时间线的预测变得更乐观资料来源:海外独角兽公众号,国元证券研究所图:图:DeepMind关于关于AGI论文论文资料来源:DeepMindLevels of AGI:Operationalizing Progress on the Path to AGI,国元证券研究所目录目录 第一部分:生成式第一部分:生成式AI快速发展,技术奇点有望到来快速发展,
29、技术奇点有望到来 第二部分:技术创新百花齐放,海外巨头引领潮流第二部分:技术创新百花齐放,海外巨头引领潮流192.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI20图:图:OpenAI发展历程发展历程资料来源:AI前线公众号,MBA百科,腾讯研究院公众号,机器之心官网,华尔街见闻官网,腾讯网,国元证券研究所OpenAI宣布成立;公司定位为“非盈利组织”,主旨是努力在安全的前提下创建通用 人 工 智 能(AGI)并 让全人类共同受益。2015OpenAI 从 非盈 利 过 渡 到“封顶盈利”OpenAI 接 受微软10亿美元投资,双方合作 为 微 软Azure 云
30、端平台服务开发AI技术。2019OpenAI于3月发布GPT-4;OpenAI的2023 ARR年收入已达16亿美元,相比去年增长56倍,公 司 估 值 达1000 亿 美 元。2023OpenAI于2月发布AI视频生成模型Sora,能根据提示词生成长达一分钟的高清视频。1OpenAI创立:以实现安全的创立:以实现安全的AGI为主旨为主旨OpenAI于6月发布GPT-3模型,9月微软获得该模型独家许可。OpenAI 于 11月发布聊天机器 人 模 型ChatGPT,能够与人类进行多轮连续的各种对话,给出较为合理的回答,引发全球关注。202020222024OpenAI由Sam Altman、E
31、lon Musk等在2015年创办,主旨是努力在安全的前提下创建通用人工智能(AGI)并让全人类共同受益;2020年发布GPT-3模型,2022年11月发布GPT-3.5模型,能够与人类进行多轮连续的各种对话,给出较为合理的回答;2023年3月发布GPT-4模型;2024年2月发布AI视频生成模型Sora,AI视频生成领域迎来ChatGPT时刻。2.1 OpenAI引领大模型技术,终极目标剑指引领大模型技术,终极目标剑指AGI21GPT-1通过无监督预训练和有监督微调两个步骤训练;GPT-2无需有监督微调,而是通过更大规模的模型参数和训练数据集进行无监督预训练,模型参数量达到15亿;GPT-3