《亚马逊云科技:2024生成式AI优势:创始人指南之利用数据脱颖而出白皮书(20页).pdf》由会员分享,可在线阅读,更多相关《亚马逊云科技:2024生成式AI优势:创始人指南之利用数据脱颖而出白皮书(20页).pdf(20页珍藏版)》请在本站上搜索。
1、生成式 AI 优势:创始人指南之利用数据脱颖而出2目录概览创始人指南之利用数据脱颖而出.3 生成式人工智能简要介绍.4将数据置于生成式人工智能方案的中心.5 第 1 节利用数据打造特色生成式人工智能应用程序.7 第 2 节为生成式人工智能奠定数据基础.11 第 3 节让思维突破技术范畴创造竞争优势.14 总结以全新方式挖潜数据创造更多价值.19 词汇表.203概览创始人指南之利用数据脱颖而出 生成式人工智能(AI)横空出世,展现出了颠覆我们沟通、创造和运营方式的巨大潜力,令世人瞩目。而生成式人工智能刮起的这股旋风很大程度上得益于 ChatGPT 和 YouChat 等面向消费者的应用程序的推出
2、。这些开创性的聊天机器人展示出与人类相仿的创造力和对话能力,着实令人震撼。不过,生成式人工智能真正的用武之地,可远不止通识型聊天机器人。各行各业中的初创企业才刚刚开始拨开生成式人工智能的层层面纱,一步一步试探着生成式人工智能协助他们创新的方法。他们渴望尝试种种可能性,并且都有充分的理由来这么做。高盛的研究表明,生成式人工智能有望在 10 年内将全球国内生产总值(GDP)提高近 7 万亿美元,将生产力增速提高 1.5 个百分点。同时,该技术对投资者也有巨大的吸引力,根据 Pitchbook 的统计,生成式人工智能初创企业在 2023 年筹集了 270 亿美元的资金。随着技术逐渐成熟,新一轮的创新
3、型初创企业和科技公司纷纷快速推出各种新一代生成式人工智能功能,以满足客户和企业不断增长的需求。这种持续创新带来了生成式人工智能应用场景的快速增长。鉴于这些研究成果,初创企业创始人和数据领导者纷纷希望快速推进自己的生成式人工智能应用程序,也就不足为奇了。他们不仅想知道如何走好下一步,还想了解如何在这个新兴领域抢占竞争优势并吸引投资者。充分发挥生成式人工智能潜力的关键在于初创企业自己的数据。有了生成式人工智能,数据就能成为企业的竞争优势。4简要介绍 概括而言,生成式人工智能可以定义为一种用于生成新内容和新想法的人工智能。例如,生成式人工智能应用程序可以撰写故事、生成代码、设计数字图像。这些应用程序
4、还可以自动执行繁琐的任务,例如从冗长的文档提取出简短的摘要等。虽然我们无法详尽列出生成式人工智能的所有用途,但可以看到的是,客户已将生成式人工智能应用程序用于以下常见领域:通过聊天机器人、虚拟助理、个性化或内容审核等功能改善客户体验 通过对话式搜索、内容创建、文本摘要或代码创建来提高员工的工作效率 加速各类创意内容(如艺术、音乐或动画)的制作 通过智能文档处理、预测性维护、质量把控和视觉检测,或者通过数据增强,来简化业务运营人工智能机器学习神经网络生成式模型5生成式人工智能与所有人工智能一样,生成式人工智能也是由机器学习(ML)模型提供支持,而且使用的是基于海量数据进行预训练的超大型模型。这些
5、模型通常称为基础模型(FM)。值得注意的是,基础模型的核心是利用机器学习的新进展。像生成式预训练转换器(GPT)模型这一类的基础模型,通常被称为大型语言模型(LLM),专门用于基于语言的任务,例如摘要、文本生成和开放式问答。大型语言模型之所以特别,是因为它们包含大量使它们能够学习高级概念的参数。将数据置于生成式人工智能方案的中心 我们很早就知道,数据是企业的战略资产。然而,根据 Accenture 的一项研究,即使对数据基础设施进行了投资,也只有三分之一(32)的公司能够从数据中实现切实且可衡量的价值。生成式人工智能有助于改善这种状况。生成式人工智能让您能够以全新的方式利用自己的数据,并从中挖
6、掘出更多的价值。通过这种技术,您可以更迅速地基于自己的数据进行创新,在新型应用程序中充分利用这些数据,还能让传统上难以处理的数据(例如非结构化数据)充分发挥价值。我们已经看到一些客户将数据与生成式人工智能相结合,改善了业务成果和客户体验。例如,Intuit 构建了 Intuit Assist,这是一款新型的生成式人工智能助手,通过使用小型企业、消费金融和税务等领域的相关上下文数据集,为客户提供个性化的金融洞察。Clearhead 是一家初创企业,能够提供创新的员工援助计划(EAP),该计划力图让用户能够更轻松地在其健康平台上找到合适的治疗师,从而更好地获取心理健康支持,其中也包括改进数字化治疗
7、师聊天机器人的应对能力。Clearhead 在 Amazon Bedrock 上使用 Amazon Titan 来增强聊天机器人提供的个性化体验,能够更好地结合具体情境进行讨论,使治疗师搜索更准确,并降低生成式人工智能的成本,带来更可预测的响应。6生成式人工智能这些应用程序令人振奋,而这些只是生成式人工智能给初创企业及其客户所带来价值的冰山一角。生成式人工智能还将以哪些方式改变我们的世界,人们仍在拭目以待。您是不是感觉自己进入到一个未知的领域,对于该如何实现生成式人工智能的巨大潜力感到茫然?实际上,使用生成式人工智能实现商业价值的方式与使用任何其它技术没有太大区别。这取决于您是否制定了足够强大
8、的数据战略,以及您是否在该战略中明确了如何使用数据作为竞争优势。您可能已经制定了数据战略,也可能刚刚开始制定。无论属于哪种情况,现在都是将生成式人工智能纳入战略的绝佳时机,如此方能让您实现更多商业价值。通过利用自己的数据实现差异化,您将把握前所未有的机会,获得可持续的竞争优势。在本白皮书中,我们为创始人及其团队提供了洞见和后续行动建议,助力初创企业更充分地利用数据,打造出独有的生成式人工智能应用程序。要在这一领域进行创新和竞争,您需要制定全面的数据战略,还要将技术、业务优先事项、应用场景、员工和治理防护机制等全部考虑在内。总而言之,该战略代表了一种看待数据的现代化方法,可确保您从生成式人工智能
9、应用程序中实现商业价值。利用您的数据打造特色生成式人工智能应用程序1妥善奠定数据基础,通过生成式人工智能充分发挥当前数据的价值2让思维突破技术范畴,通过生成式人工智能 创造竞争优势3我们将从三个重点领域出发,为您剖析如何制定这种现代化数据战略:7第 1 节利用数据打造特色生成式人工智能应用程序您的应用程序是一般通用型的,还是能够深入了解您的初创企业和客户?这两者之间的差别就在于您是否恰当使用了自己的数据。因此,您必须确定如何妥善利用自己的数据来精准把握自身业务的独特性,并将这些独特之处加以推广。对于大多数初创企业而言,部署生成式人工智能应用程序的起点都是开箱即用的基础模型(FM)。仅有少数初创
10、企业会选择构建自己的基础模型,来支持其生成式人工智能应用程序,但这需要大量计算资源和高度专业的员工。虽然开箱即用的基础模型功能足够强大,但从设计的角度看,这些模型都是一般通用型的。它们的名字已经说明了这一点:“基础”模型。这意味着这些模型没有根据您的业务需求进行调整,因为这些基础模型无法访问初创企业的新数据,或者无法执行特定领域的任务,因而无法满足用户请求。要利用生成式人工智能应用程序满足您的客户体验要求、内部知识、品牌风格和道德标准,您的数据是关键。例如,如果您是一家在线旅行社,想要通过生成式人工智能应用程序为客户提供更好的旅行建议,那么您可能需要利用特定于客户的个人数据,例如过去的旅行、网
11、页浏览历史记录和旅行偏好等等数据。您还需要访问有关相似旅行者的惯性和旅行清单的汇总数据,以便提供更好的建议。通过使用自己的数据,您就能为客户带来个性化且独特的体验。此外,开箱即用的基础模型人人都可得而用之,因此只有使用自己的数据对其进行定制,您的生成式人工智能应用程序才能凸显出自己的不同之处。假设您还使用开箱即用的基础模型为您的在线旅行社起草营销文案,您的竞争对手可能也在使用相同的模型做同样的事情。这些模型在很大程度上使用的是同一个通用知识库生成内容。因此,如果不进行定制,可能会导致您和您的竞争对手创建出来的内容大同小异。定制化创造出来的竞争优势是可持续的。有几种方法可以定制基础模型,其中包括
12、微调和上下文 学习等。8第 1 节客户聚焦作为全球交通数据和分析提供商,INRIX 正在构建以 Amazon Bedrock 为核心的新解决方案。解决方案用于实时提供最新信息,以便交通和安全工程师能够了解到街道上所出现的情况,事件发生的地点、时间和原因,以及如何应对。这款新的 Amazon Bedrock 解决方案使用检索增强型生成(RAG),利用超速和车祸事件等历史数据以及拥堵状态和当前天气状况等新近数据,来增强输送给底层基础模型的提示。INRIX 通过使用自己的数据来增强 Amazon Bedrock 中的基础模型,可以快速回答客户提出的复杂问题,例如应如何改变道路才能缓解交通拥堵、尽可能
13、减少事故,如何确定新零售商店的理想位置,甚至如何缓解下一场音乐会的交通和停车问题等等。9第 1 节生成式人工智能数据新兴模式微调使用开箱即用的基础模型时,您必须利用自己的数据来定制模型,从而满足您独特的业务需求。对于领域密集型应用程序,例如技术支持坐席或企业特有的内容创作,微调是一个不错的选择。借助 Amazon Bedrock,您可以安全地使用自己的数据定制基础模型,并使用其它内置工具来构建了解您的业务、数据和客户的应用程序。设想一下,一位服务于领先电子商务初创企业的内容营销经理,需要为即将推出的新手袋系列制作有针对性的全新广告和活动文案。为此,他们向 Amazon Bedrock 提供了一
14、些带标签的示例,这些示例存储在 Amazon Simple Storage Service(Amazon S3)上的数据湖中,其中包含了他们在过去的活动中表现出色的标语,以及相关的产品描述。Amazon Bedrock 针对客户另外各克隆了一套基础模型,只有该客户才能访问到自己的基础模型副本进行模型训练。训练结束后,Amazon Bedrock 会自动为新款手袋生成有效的社交媒体帖文、展示广告和网页文案。模型微调使用特定领域的数据进一步 训练预训练模型知识领域丰富的客服坐席示例:技术支持聊天机器人上下文学习使用特定领域的私有上下文数据 指导预训练模型仅局限于某些领域 的虚拟坐席示例:客服、账单
15、服务训练自己的模型利用特定数据训练出深度了解 特定领域的应用程序分子序列、编程语言 示例:基于特定领域的 数据训练模型10第 1 节上下文学习基础模型是在某个时刻训练的,每次数据集更改时都对其进行微调是不切实际的。一旦完成训练,基础模型就不会再摄取新的知识或数据了。如果需要额外的上下文来解决问题,基础模型也无法找到实时信息,因此也使用不到这样的实时信息。为了提高响应的相关性且更符合上下文,不妨通过上下文学习为基础模型提供数据,这种技术通过提示工程或检索增强型生成(RAG),引导基础模型获取特定领域的上下文数据。许多企业都使用检索增强型生成作为进行上下文学习的主要方法。检索增强型生成有便于您的基
16、础模型使用到初创企业的新数据,从而提供更准确、更相关的响应。检索增强型生成通常使用向量嵌入(即,以数字形式表示的字词、短语或图像)。嵌入会对源文本或图像的语义含义进行编码,这样基础模型就能够更轻松地发现相似向量之间的关系并改善对提示的响应。虽然您可以单独使用上述每种技术,但结合使用微调和检索增强型生成,将会更有助于您利用数据打造出颇具特色的生成式人工智能应用程序。搜索相关信息知识来源为增强上下文而获取的相关信息生成的文字回应提示+查询12查询3提示+查询+增强版上下文大型语言模型端点5411您的数据是使用生成式人工智能应用程序创造价值的关键。因此,使用高质量、相关、易于访问且可供使用的数据来定
17、制模型,也就变得尤为重要。要满足这些基准要求,首先要有强大的数据基础。该基础应包括一组面面俱到、集为一体的数据服务,适用于所有工作负载、应用场景和数据类型,还要包括一些数据治理工具。下面简要概述了该数据基础:面面俱到对于生成式人工智能,您需要存储各种类型的数据,包括非结构化数据、结构化数据、流数据和向量数据,这些数据可用于构建和定制模型,以及为提示添加上下文(无论是否使用检索增强生成)。一套面面俱到的数据服务,将让存储所有这些数据以及大规模查询和分析这些数据成为可能。通常,一套面面俱到的生成式人工智能数据服务都会包括一个耐久性和可扩展性都较高的数据湖。该数据湖用于存储您构建和定制基础模型所需的
18、特定领域数据。多年来,亚马逊云科技一直在通过 Amazon S3、Amazon Glue 和 Amazon Lake Formation 等服务,为客户奠定坚实的数据湖基础,用以存储结构化和非结构化数据。我们的客户已使用 Amazon S3 创建了数十万个数据湖。生成式人工智能的数据基础还包括用于检索增强型生成的高性能知识存储库。亚马逊云科技根据您的应用场景提供了多种选项。例如,NoSQL 数据库可存储对话状态和历史记录,因此聊天机器人可以记住之前的响应。事务型数据库可存储上下文和客户信息,从而能够创建出更加个性化的响应。您还可以使用像 Amazon Kendra 这样的知识存储库,连接到多个
19、结构化和非结构化内容存储库,为您的基础模型提供基于文档的知识来源。或者,您也可以使用具有向量搜索功能的数据库,这些数据库是专为高效存储和检索嵌入而设计的。在现有使用的数据库中使用向量搜索的功能具有一定的优势。例如,无需克服苦学新编程工具、API 和 SDK 这一重困难。您也可以确信,您的现有数据库已在生产环境中经过验证,能够满足可扩展性、可用性、存储和计算方面的要求。而且,当您的向量和业务数据存储在同一个位置时,您的应用程序可以更快地运行,无需担心数据同步或数据移动。亚马逊云科技为许多常用数据存储提供了向量搜索功能,让客户可以在构建生成式人工智能应用程序时享受更大的灵活性。第 2 节为生成式人