《智慧图书馆技术应用联盟:2024图书馆领域大模型创新应用需求调研报告(征求意见稿)(76页).pdf》由会员分享,可在线阅读,更多相关《智慧图书馆技术应用联盟:2024图书馆领域大模型创新应用需求调研报告(征求意见稿)(76页).pdf(76页珍藏版)》请在本站上搜索。
1、图书馆领域大模型创新应用需求调研报告图书馆领域大模型创新应用需求调研报告(征求意见稿(征求意见稿 V0.9)上海图书馆(上海科学技术情报研究所)智慧图书馆技术应用联盟2024 年 5 月说明说明本报告为图书馆领域大模型创新应用需求调研报告的征求意见稿,仅供内部讨论、意见征集使用。在本报告的编纂过程中,得到诸多同仁及联盟成员的宝贵支持和专业意见,对此表示衷心的感谢。本报告版权属于上海图书馆(上海科学技术情报研究所)、智慧图书馆技术应用联盟。本报告第二章节行业应用调研部分,整理自国内外公开网络信息和机构研报,特此致谢!感谢各有关机构对大语言模型技术发展与行业应用的深入调研,并公开分享这些宝贵的学习
2、资源。由于大模型技术与应用领域的飞速发展,本报告编写期间,很多方面如大模型能力、应用框架、多模态和智能体等方面已发生很多进展,虽然本报告尽可能考虑了相关技术对领域应用的影响,但还是强烈建议您在参考本报告内容时,密切关注大模型技术的最新进展和动态。同时,我们深知本报告难免还存在不少疏漏与不足之处,因此我们对此表示歉意,并希望您提供宝贵的反馈建议。报告各章编辑:报告各章编辑:第一章 前言(嵇婷)第二章 大模型行业应用调研(许磊)第三章 大模型对图书馆的影响(嵇婷、周纲、许磊)第四章 智慧图书馆中的大模型应用(嵇婷、周纲、许磊)第五章 图书馆典型大模型应用需求及场景举例(嵇婷、周纲、许磊、刘倩倩、姚
3、馨、刘贝玲、徐凡、吕思诗、张春景)第六章 总结与展望(嵇婷)联系方式:联系方式:如对报告有任何建议,欢迎将反馈意见发送至邮箱:。1目录目录第一章 前言.1第二章 大模型行业应用调研.32.1 大模型行业应用价值.32.2 大模型行业应用服务.42.3 大模型行业应用技术方案.62.3.1 提示词工程.62.3.2 检索生成增强.92.3.3 智能体.102.3.4 模型微调.132.4 大模型行业应用案例.142.4.1 医药健康.162.4.2 金融保险.172.4.3 文化教育.18第三章 大模型对图书馆的影响.203.1 图书馆大模型影响分析.203.2 图书馆大模型应用策略.233.3
4、 图书馆大模型应用路径.253.4 图书馆大模型应用范式.273.5 图书馆大模型技术架构.29第四章 智慧图书馆中的大模型应用.314.1 智慧服务中的大模型应用.324.2 智慧业务中的大模型应用.364.3 智慧管理中的大模型应用.384.4 智慧空间中的大模型应用.41第五章 图书馆典型大模型应用需求及场景举例.445.1 智慧咨询服务.455.1.1 需求分析.455.1.2 场景举例.455.1.3 已有案例.465.2 智慧资源发现.475.2.1 需求分析.475.2.2 场景举例.475.2.3 已有案例.495.3 智慧阅读推广.495.3.1 需求分析.495.3.2 场
5、景举例.505.3.3 已有案例.515.4 智慧知识服务.525.4.1 需求分析.525.4.2 场景举例.5325.4.3 已有案例.555.5 智能采编辅助.565.5.1 需求分析.565.5.2 场景举例.575.5.3 已有案例.605.6 数字资源智能加工.615.6.1 需求分析.615.6.2 场景举例.615.6.3 已有案例.625.7 数字人文智慧研究与服务.635.7.1 需求分析.635.7.2 场景举例.635.7.3 已有案例.665.8 馆员智慧助手.675.8.1 需求分析.675.8.2 场景举例.675.8.3 已有案例.68第六章 总结与展望.70附
6、:云瀚应用商店 AI 应用列表.721第一章 前言第一章 前言人工智能(AI)技术以其迅猛的发展势头,正在成为推动社会进步的重要力量。在 AI 时代浪潮的推动下,以大模型技术为代表的生成式人工智能已经成为推动科技进步和产业变革的重要力量,为各行各业带来了革新的可能。2023 年 7月,国家互联网信息办公室等七个中央部门联合发布了生成式人工智能服务管理暂行办法,文件鼓励生成式人工智能技术在各行业、各领域的创新应用,探索优化应用场景,构建应用生态体系。2024 年,政府工作报告中明确提出深化人工智能研发应用,开展“人工智能+”行动。国家鼓励人工智能技术与经济社会各领域深度融合,以推动各行业应用创新
7、,赋能百业智能化转型升级。伴随着新一代 AI 技术的兴起,图书馆界也迎来了重要的转型契机,步入了一个既充满机遇又面临挑战的新时代。在这一新的技术背景下,图书馆作为信息资源中心和知识服务核心场所,必须适应新时代的发展趋势,把握机遇,积极应对将 AI 融入运营与服务中的复杂挑战。为了有效应对变革,上海图书馆(上海科学技术情报研究所)联合上海人工智能研究院、智慧图书馆技术应用联盟于2023 年 9 月发布了图书馆大规模模型创新与应用白皮书。白皮书从宏观层面,解读了智慧图书馆在 AI2.0 时代的发展环境和机遇,勾勒了大模型技术赋能智慧图书馆全景应用视图、实现路径、应用架构,为行业推进场景创新、落地实
8、践、生态建设提出了方向性、建设性的参考与建议。本报告旨在作为图书馆大规模模型创新与应用白皮书的补充,深入探讨大模型技术在图书馆领域的应用价值与潜在影响。在白皮书提出的图书馆领域大模型应用的总体架构与应用视图的基础上,本报告进一步分析了大模型技术在智慧图书馆中可实践应用的具体领域、场景和需求。本报告旨在揭示大模型在智慧图书馆中的应用潜力与可能性,提供图书馆在探索大模型技术创新应用的参考,以助力图书馆更好地把握人工智能发展所带来的机遇。报告第二章首先对大模型的价值、技术、行业应用进行调研,旨在洞察行业趋势,评估大模型技术在图书馆领域的应用前景。第三章在详细分析了大模型对图书馆的影响后,提出了图书馆
9、应用大模型的策略、路径和架构。报告第四章根据当前技术发展和落地现状,梳理了图书馆在智慧服务、智慧业务、智慧管理、智慧空间四个领域中,当前可实验、实施或展望的 AI 应用,并进行总结。第五2章重点聚焦于图书馆中的八个典型领域,通过需求分析、场景举例以及相关实践案例,深入探讨了大模型技术在这些领域的应用潜力。这八个领域是:参考咨询、资源发现、阅读推广、学术服务、采编辅助、资源加工、数字人文和管理决策,通过对这些关键领域的详细讨论,报告意在激发更多的创新思维,促进图书馆领域在大模型技术的开发应用和产品设计方面的思考与实践。人工智能技术正处于快速演变之中。因此,本白皮书所阐述的观点和建议反映了当前阶段
10、性的探索与思考。这些内容旨在为图书馆领域的未来发展提供启发,并促进对新兴技术趋势的理解和应用。随着技术进步和实践经验的积累,未来的应用模式和需求可能会有所变化,需持续对这些变革保持关注,并适时进行调整和优化以适应新的发展趋势。我们深知报告中存在诸多不足之处,因此,我们也诚挚邀请各界人士进行批评指正,我们将借助各方经验对报告进行修改和完善,从而为智慧图书馆大模型创新应用提供有益参考。3第二章 大模型行业应用调研第二章 大模型行业应用调研2.1 大模型行业应用价值大模型行业应用价值2022 年 11 月上线的生成式人工智能(AIGC,AI-Generated Content)应用ChatGPT,在
11、“大模型+大数据+大算力”的加持下,其在语义理解、文本创作、代码编写、逻辑推理、知识问答等领域表现卓越,在具备了多场景、多用途、跨学科的任务处理能力,是人工智能技术极为关键的发展节点1。ChatGPT 的横空出世,标志着大语言模型(Large Language Model,LLM,简称“大模型”)突破自然语言处理(Natural Language Processing,NLP)领域以小模型为主导的传统发展范式。通常认为,大语言模型是基于海量自然语言数据进行预训练而得到的超大型深度学习模型,参数通常从数十亿到超千亿。底层基于 Transformer 深度神经网络,由具有自注意力功能的编码器和解码
12、器组成,编码器和解码器从一系列文本中提取含义,能够理解更大范围上下文的单词和短语之间的语义关系。这种巨量数据训练架构使得大语言模型具有了被称为“涌现”的泛化推理能力2,使其具有了通用人工智能(AGI)的特性。用同样方法对海量图片、音频、视频等多媒体信息结合语言数据进行预训练和指令微调的超大型深度学习模型也是大语言模型的一种发展,通常称为多模态大模型。也可以将上述两者并称为“大模型”。大模型的“涌现能力”不仅可以实现文本、图像、音频、视频的生成,构建多模态,还可以在更为广泛的领域生成新的设计,新的知识,甚至实现广义的艺术和科学的再创造3。大模型的“大规模”和“预训练”属性,决定了其具有能力泛化、
13、技术融合、应用支撑三大核心作用4。(1)能力泛化方面,大模型预先在海量通用数据上训练使其具备了通用任务的泛化能力,更可进一步结合垂直行业和业务场景需求进行模型微调和应用适配,摆脱传统 AI 能力碎片化、作坊式开发的束缚。大模型得益于其“大规模预训练微调”的范式,可以很好地适应不同下游任务,展现出它强大的通用性。(2)技术融合方面,文本大模型融合语言、视觉、听觉等多模态信息,通1中国人工智能学会.中国人工智能系列白皮书大模型技术(2023 版),https:/ 开启通用人工智能浪潮M.中译出版社,2023.4海通国际.MaaS Model as a Service 模型即服务,https:/ 2
14、”的效果,显著提升大模型的功能丰富性和性能优越性1、2。(3)应用支撑方面,大模型涌现能力的重要体现是复杂任务推理2。复杂推理能够使大模型应用通过与工具、用户和外部环境的互动来完成复杂的指令。这为构建大量应用程序提供了机会,从而使大模型有机会成为下一代计算平台/操作系统,有效支撑智能终端、系统、平台等产品应用落地,解决传统 AI 应用过程中存在的壁垒多、部署难问题。从人工智能到各行业的商业应用,可以看作是上下游的关系。大模型因其自身在能力泛化与技术融合方面的优势,使其在应用支撑方面具有先进性;同时大模型做到了相对标准化,下游可以降低对算法的使用成本,以及商业应用的适配成本。因此,大模型在“AI
15、+”行业中将承担“基础设施”式的功能,作为底座将 AI技术赋能千行百业。也就是说,在基于数据的互联网时代、基于算力的云计算时代之后,将进入基于大模型的 AI 时代。在未来,基于大模型,人工智能将如供水供电一般流向终端,流向用户和企业。2.2 大模型行业应用服务大模型行业应用服务大模型应用落地场景按照架构层级,一般可分为:模型层、中间层和应用层5。(1)第一层,为上游基础模型层,也就是由预训练模型为基础搭建的 AIGC技术基础设施层。由于预训练模型的高成本和技术投入,具有较高的进入门槛,不在本文讨论范围。(2)第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。预训练的大模型是基础设施,
16、在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态的 AIGC 模型加速成为新的技术平台,模型即服务(Model as a Service,MaaS)开始成为现实。OpenAI 创始人山姆奥特曼(Sam Altman)“认为中间那一层会创造很多价值。5腾讯研究院.AIGC 发展趋势报告 2023,https:/ C 端用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。根据内容生产模态,AIGC 能够被分为四大基础模态,包括文本、音频、图像、视频,每一种模态技术
17、都有着独特的应用场景和特点。此外,这四类模态的融合还带来第五类模态跨模态内容生成模式,支持创造出更为丰富多彩的 AIGC 生成内容6。2023 中关村论坛人工智能大模型发展论坛,阿里云智能集团 CTO 周靖人表示,“以模型为中心的开发范式(MaaS)已成为行业标准,未来应用开发的整个链路都会基于这一理念来做”。所谓 MaaS,模型即服务,指的是用户可以直接通过 API 调用基础大模型,为不同的业务场景,来构建、训练和部署专属模型。云平台提供从数据、模型到应用服务的全周期管理和工具。AI 产业的场景落地一直面临碎片化、长尾场景数据较少导致模型训练精度不够等行业痛点。传统“小模型”范式的 AI 应
18、用开发流程一般针对单一场景,独立地完成一系列开发环节,包括模型选择、数据处理、模型优化和模型迭代。因此,AI 应用在定制化需求、长尾需求下的开发效率较低,且模型精度、性能、可扩展性等指标质量也会受到影响。随着大模型的出现,AI 应用开发流程转变为,调用通用流程、结合行业经验、解决实际问题。Maas 服务商即把大模型作为重要的生产元素,依托于既有 IaaS 设施与 PaaS平台架构,为下游客户提供以大模型为核心的数据处理、模型托管、模型训练、模型调优、推理部署、智能应用开发等多样化需求,保障客户的大模型能够顺利交付。客户则通过低成本、高效率的 MaaS 平台服务获得 AI 能力,完成 AI 应用
19、的开发、优化及部署,将 AI 能力应用渗透到各行各业的场景业务中7。6横琴粤澳深度合作区数链数字金融研究院,亚洲数据集团.人工智能行业智能时代的生产力变革:AIGC产业应用实践,https:/www.bj- 年中国 AIGC 产业全景报告,https:/ 2.2:MaaS 行业应用服务模式8目前,微软云 Azure、阿里云、华为云、腾讯云、百度云、京东云等云计算大厂,都已经推出了 MaaS 服务。以微软云的 Azure OpenAI 服务为例,就支持开发者调用 OpenAI GPT-4、GPT-3、Codex 和 DALL-E 等模型的 API,来构建、微调模型,为应用提供支持。腾讯云从产业客
20、户需求场景出发,依托腾讯云 TI平台打造模型精选商店。腾讯云已联合行业头部企业,为十大行业输出了超过50 个解决方案,提供一整套模型服务工具链。传统企业软件服务商金蝶利用百度智能云千帆平台所提供的大模型推理、微调以及算力资源服务,发布了新一代企业管理产品金蝶云苍穹 GPT9。2.3 大模型行业应用技术方案大模型行业应用技术方案大语言模型在语言生成、知识利用、复杂推理等基础能力上存在诸多问题,典型如幻觉、知识时效性、专业化生成能力较弱、推理不一致等问题10。在实际应用中需要综合运用提示词工程、检索生成增强、智能体、模型微调等多种策略和技术方案提升大模型的稳定性与一致性。2.3.1 提示词工程提示
21、词工程简单来说,现阶段基于 Transformer 架构的主流大模型,是根据输入预测下8艾瑞咨询.2023 年中国 AIGC 产业全景报告,https:/ engineering)成为大模型实际应用的主要方法。所谓提示是经过精心构造由不同要素组成的任务指令来引导模型的输出,使大模型能够在不同的任务和领域中表现出色。而提示的质量也在很大程度上影响了大模型在下游任务中的表现,因此需要通过人工设计或自动优化的方法来生成合适的任务提示。人工设计大语言提示需要考虑四个关键要素,即任务描述、输入数据、上下文信息和提示策略。基于这四个关键要素,提示设计的基本原则分别是:清晰地表达任务目标;分解为简单且详细的
22、子任务;提供少样本示例;采用模型友好的提示格式11。(1)清晰地表达任务目标。在使用大模型时需要给出清晰明确的指令。具体来说,一个清晰详尽的任务描述中应当包含任务的各种要素信息,如任务目标、输入/输出数据和回复限制。(2)分解为简单且详细的子任务。将一个复杂任务分解为若干个相对独立但又相互关联的子任务,每个子任务都对应原始任务的某个方面或步骤。这种策略有助于减少复杂任务的解决难度:通过将复杂任务分解为若干个子任务并按照一定的顺序处理这些子任务,模型能够逐步获得最终的答案。(3)提供少样本示例。在提示中加入少量目标任务的输入输出作为任务示例(即少样本示例),有助于大模型在无需调整参数的前提下学习
23、输入与输出之间的语义映射关系,提升大模型解决复杂任务的能力。(4)采用模型友好的提示格式。大模型采用专门构建的数据集进行预训练,因此可以从数据集中学习到大量的语言表达模式,发现并利用这些语言表达模式可以帮助我们更有效地使用大模型完成特定任务。如 Markdown 语法、XML 标签等。遵循上述原则设计的简单提示对于大多数的问题都是有效的,但涉及复杂推理任务时,则需要更高级的提示策略。其中被广泛应用的就是思维链(Chain ofThought,CoT)。为增强大模型在各类复杂推理任务上的表现,Wei 等人12设计了思维链的提11赵鑫,李军毅,周昆,唐天一,文继荣.大语言模型,https:/llm
24、book-zh.github.io/,202412Wei J,Wang X,Schuurmans D,et al.Chain-of-Thought Prompting Elicits Reasoning in Large LanguageModelsJ.arXiv,2022.8示策略。思维链的主要思想是通过向大模型展示一些少量推理过程,大模型在回答时也会显示推理过程,这往往会引导出更准确的结果。具体来讲思维链提示在原先的少样本示例的输入输出之间,插入了中间的推理步骤来指导从输入到输出的推理过程,即“输入,推理步骤,输出”形式,也可称为少样本思维链提示(Few-Shot CoT)。另外,最简单的
25、思维链提示,可以在提示中加入如“Lets thinkstep by step.”之类的诱导性指令,让大模型先生成思维链再回答问题来提高准确率,也就是零样本思维链提示(Zero-Shot CoT)13。也有更多基于思维链的优化或变体提示策略,如自洽性(Self-Consistency)、最少到最多提示过程(Least toMost prompting,LtM)、思维树(Tree-of-Thoughts、ToT)等。更多特定场景下的提示策略可阅读相关综述14。图 2.3.1:思维链提示样例12常用的提示优化工具有:PromptPerfect15、prompttools16、promptfoo17、
26、FlowGPT18等,更多相关工具见 LearnPrompting19。13Kojima T,Gu S S,Reid M,et al.Large Language Models are Zero-Shot ReasonersJ.arXiv,2022.14Sahoo P,Singh A K,Saha S,et al.A Systematic Survey of Prompt Engineering in Large Language Models:Techniques and ApplicationsJ.arXiv,2024.15https:/promptperfect.jina.ai/16ht
27、tps:/ 检索生成增强检索生成增强当大模型处理本地的或特定领域信息时,幻觉、知识过时以及推理过程不透明、不可追踪等问题进一步凸显,不能满足业务实际需求。这就需要在提示中提供更多的专业知识作为上下文背景,确保大模型输出的准确、可靠。检索增强生成技术(Retrieval-Augmented Generation,RAG)20通过整合外部数据库的知识,成为一种高效的解决方案。RAG 通过传统的检索方法,用外部来源的最新信息补充大模型的训练数据,使其不仅能够访问专属知识库,还能动态地引入最新数据,从而引导其生成更准确的回复。一个典型的 RAG 系统流程分为索引、检索和生成:(1)索引:索引首先从不同
28、格式的文件中提取原始数据,将其转换为统一的纯文本格式。然后,文本被分割成更小的块。最后,使用嵌入模型编码为矢量表示,并存储到矢量数据库中。(2)检索:检索时,系统将用户查询转换为向量表示。然后进行语义相似性检索与问题最相关的前 k 个块。(3)生成:将原始问题和检索到的信息块被合并为提示,一并输入大模型生成最终答案。具体来讲,RAG 系统涉及多个不同的组件,每个组件都需要精心设计和优化,以确保整体性能达到令人满意的水平。索引阶段包括了文档智能解析、文本分块、索引构建与优化、向量嵌入等;检索阶段有检索的理解与优化、检索路由与策略等;生成阶段有重排序、上下文过滤与压缩等。根据上述组件与优化方案的选
29、择,RAG 可以分为原生、增强、模块 3 种类型21。为进一步提高系统的性能,也会引入后置处理环节,如风控检测、结果缓存、指标监控等。而在生产环境中,则可以根据业务需求在原生 RAG 基础上合理选择扩展组件和优化策略。RAG 类工具有 Jina Reader22、Scrapegraph-ai23、Crawl4AI24等专门为大模型优20Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation for knowledge-intensive nlp tasksJ.Advances in Neural Information Pro
30、cessing Systems,2020,33:9459-9474.21Gao Y,Xiong Y,Gao X,et al.Retrieval-Augmented Generation for Large Language Models:A SurveyJ.arXiv,2023.22https:/ Unstructured25、marker-api26、Open Parse27等;支持检索、推荐、过滤等功能的 RAG 检索 API28;有专用数据框架 LlamaIndex29,适用于 RAG 和语义检索的 Haystack30,基于深度文档理解构建的 RAG 引擎 RAGFlow31,也有用于
31、 RAG 程序搭建的 Verba32;综合开发框架 LangChain33及其衍生低代码平台 Langflow34、Flowise35等;Cohere更推出了专为 RAG 微调优化的大模型 Command R 和 RAG 开发工具包36。2.3.3 智能体智能体智能体(Agent)简单来说可看作能感知环境及需求、进行决策和执行动作的系统。在大模型之前,Agent 主要依赖于规则或强化学习的方法实现。前者容错性较小、后者成本较高,使其无法推广应用到实际的开放环境中。基于大模型的 AI Agent 的核心思想是利用大模型的逻辑推理、工具应用、指令遵循等核心能力,将复杂任务分解为若干相关联的子任务,
32、并围绕这些子任务制定包含一系列执行动作(Action)的解决方案,进而简化任务难度37,执行复杂推理任务,丰富大模型在实际业务中的应用场景。2023 年 3 月,微软发布 Microsoft 365Copilot,4 月开源项目 AutoGPT38发布,6 月 Lilian Weng 发布“LLM PoweredAutonomousAgents”39,基于大模型的 AIAgent 的重要性逐渐成为业界共识40、41、25https:/ X,Liu W,Chen X,et al.Understanding the planning of LLM agents:A surveyJ.arXiv:24
33、02.02716,2024.38https:/ Weng.LLM Powered Autonomous Agents.https:/lilianweng.github.io/posts/2023-06-23-agent/40https:/ AIAgent 是一种编排软件,它将大模型、规划能力、记忆、工具结合起来,执行各种任务,例如理解和生成自然语言、从内存中存储和检索信息、利用特定功能的工具,甚至评估自身的表现。核心组件一般包括记忆模块(Memory)、规划模块(Planning)和执行模块(Execution)43。(1)记忆模块主要用于存储智能体与环境的历史交互记录,包括短期记忆和长期记忆
34、。短期记忆相当于 Transformer 架构约束下的上下文窗口内的输入信息。长期记忆类似于可以根据需要迅速查询和检索的外部向量存储。(2)规划模块赋予智能体类似于人类的解决复杂任务的能力,即将复杂任务分解为一系列简单的子任务,进而逐一进行解决。根据是否接收反馈影响未来行为,可分为无反馈规划和有反馈规划。在无反馈规划中,我们可以采用单路径推理,这种策略将最终任务分解为一系列中间步骤,这些步骤以级联方式连接,每个步骤仅指向一个后续步骤。另一种方法是多路径推理,其中生成的推理步骤被组织成树状结构,每个中间步骤可能有多个后续步骤。此外,还有针对特定领域的长期规划问题的外部规划器,这类规划器基于高效的
35、搜索算法,提供更可靠的规划能力。有反馈规划则包括从环境、人类和模型中接收反馈,以引导反思和提高规划能力。环境反馈通常采用 ReAct 的推理-行动-反馈模式,明确的推理和行动按顺序进行,如果某个行动的反馈未达到预期结果,则重新进行推理直至得出正确答案。人类反馈,即“人在环中”模式,通过与人类的互动获取反馈,帮助智能体与人类的价值和偏好保持一致,并更好地适应实际环境,同时也有助于缓解幻觉问题。模型反馈则涉及使用大型模型作为质量审核专家,对生成的计划进行评估和改进,引入自我完善机制,通过迭代反馈和改进来提高模型的输出效果。(3)执行模块的目标是将智能体的决策转化为具体结果。它直接与环境互动,决定了
36、智能体完成任务的效率。具体来说,智能体会在行动决策过程中执行规划组件制定的明确行动规划,同时会参考记忆组件中的长短期记忆来帮助执行准确的行动。在技术实现上,执行组件可以通过大模型自身来完成预定规划,或42https:/www.deeplearning.ai/the-batch/issue-241/43Wang L,Ma C,Feng X,et al.A survey on large language model based autonomous agentsJ.Frontiers ofComputer Science,2024,18(6):1-26.12者通过集成外部工具来增强其执行能力。工
37、具主要包括 API、外部知识库、第三方模型、大模型自身的内部知识等。最为知名的开发框架是 LangChain,其他框架包括BabyAGI44、AgentGPT45等;多智能体框架 AutoGen46、MetaGPT47等;轻量级框架有 crewAI48、Agently49、phidata50等;可视化工具有 Flowise51、Dify52、Bisheng53、FastGPT54、coze55等。更多相关内容可见 awesome-ai-agents56。补齐了大模型短板的 AI Agent 更具备实用性,将是大模型重要落地方向。但受限于当前技术和市场发展,智能体在记忆与规划上并没有完全成熟,因
38、此嵌入 RPA(机器人流程自动化)或低代码平台的自动化工作流类智能体成为当前可行的落地方案之一57。如摩根大通推出的 FlowMind 生成系统58,工作流分成 2个阶段。第一阶段为大模型设置上下文、APIs 描述等背景信息,第二阶段则是大模型识别用户查询意图调用相应的工具生成并执行代码。微软 Copilot 则开放测试调用 PowerAutomate,与本地系统集成执行更加复杂的自动化任务59。“AIAgent的工作流程将推动人工智能巨大的进步甚至可能超过下一代基础模型”60。44https:/ Z,Watson W,Cho N,et al.FlowMind:Automatic Workfl
39、ow Generation with LLMsC/Proceedings of theFourth ACM International Conference on AI in Finance.2023:73-81.59https:/ 模型微调模型微调如 2.3.2 所述,大模型虽然在通用任务上有出色的表现,但在一些细分专业领域,它们往往无法满足专业需求。如果需要让模型在特定领域有更精准、专业的表现,或者需要模型具备特定的知识、能力或风格时,就需要在大模型的基础上进行领域微调。大模型微调是指在预训练的大型语言模型基础上,使用特定领域的数据对其进行进一步的训练。由于大语言模型的参数量巨大,领域微调
40、环节一般进行参数高效微调(Parameter-efficient Fine-tuning)。这种方法通过只训练模型的一小部分参数,可以在较少的数据和计算资源下实现更好的微调性能。典型的微调方案有 LoRa、适配器微调、前缀微调、提示微调等。大模型微调步骤一般包括基础模型选择、训练数据集的搜集与预处理、微调、测试与评估等。基础模型选择可参考各大模型评测榜单,如 Open LLMLeaderboard61,LMSYS Chatbot Arena Leaderboard62,OpenCompass 司南大模型评测63等。训练数据集的构建则是微调的重要一环。格式化数据集构建主要有以下三种方法64:(1
41、)基于现有的 NLP 任务数据集构建。这类方法利用已经存在的、经过验证的 NLP 任务数据集,如机器翻译、情感分析、文本分类等。这些数据集通常有明确的标注和结构,可以直接用于微调模型。这种方法的优点是数据质量高,标注准确,能够快速验证模型在特定任务上的性能。(2)基于日常对话数据构建。这类方法使用来源于实际对话的数据,如社交媒体评论、论坛帖子、聊天记录等。这些数据具有多样性和自然性,能够帮助模型适应更广泛的语言使用场景。然而,这些数据往往未经标注,需要进行预处理和标注,以保证数据质量和训练效果。预处理步骤可能包括去除噪声、过滤敏感信息以及标准化对话格式。(3)基于合成数据构建。合成数据是通过生
42、成模型或规则程序生成的。这种方法适用于特定任务或领域的数据不足的情况。合成数据可以通过数据增强技术、文本生成模型(如 GPT)或者基于规则的方法(如模板生成)来创建。尽61https:/huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard62https:/chat.lmsys.org/63https:/ 和微调都是一种基础大模型在领域应用的重要方法。RAG 在动态环境中表现出色,可提供实时知识更新并有效利用外部知识源,具有很高的可解释性。缺点就是需要从外部数据中实时检索,大模型推理消耗较大,响应速度稍慢,并且最终结果受到检索召回率和准
43、确率的较大影响。而微调更为静态,可以深度定制模型的行为和风格,更好地适应目标领域。但更新时需要重新训练,并且需要大量的计算资源用于数据集的准备和训练。另外,受到训练数据集的影响可能会过拟合,泛化能力较弱。RAG 最典型的应用场景是 QA 类的智能客服,而微调则适用于知识密度较高、体系较为成熟的专业领域,如医疗、金融、法律类等领域应用。选择 RAG 还是微调,取决于应用环境中对数据动态、定制和计算能力的具体需求。更重要的一点是,提示词工程、RAG、智能体和微调并不相互排斥,而是相互补充,增强对方的强项,抵消对方的弱项,在不同层面上增强大模型的能力。各个技术方案的综合应用是实现贴合场景的高性能业务
44、 AI 应用的最佳方法。图 2.3.4:RAG 与微调的方案选择652.4 大模型行业应用案例大模型行业应用案例虽然目前生成式人工智能主要应用于面向消费者的产品,但它也有潜力为企业工作流程增加情景感知和类似于人类的决策能力,并彻底改变我们的商业模式。例如,谷歌的客服中心人工智能(CCAI)旨在帮助实现采用自然语言进行客户65Gao Y,Xiong Y,Gao X,et al.Retrieval-Augmented Generation for Large Language Models:A SurveyJ.arXiv,2023.15服务交互,而 NVIDIA 的 BioNeMo 则可以加速新药
45、的研发。华为盘古气象大模型也已应用于欧洲中期天气预报中心。随着生成式人工智能的不断推广和应用,其产生的深远影响和潜在价值正在加速推动从实验到消费者领域再到企业领域的应用。大模型能否落地一方面取决于大模型的性能,另一方面与所落地行业的特点是分不开的。数据是大模型的基础燃料,这就意味着数据量大、数据质量高、数据多样性强的行业能够为大模型提供充足的训练和微调的数据,而技术需求高、创新能力强、竞争激烈的行业自身就有着拥抱新技术的热情,这些因素决定下,大模型在各国、各行业的成熟度并不一致,在各个应用落地的表现也有所不同。目前,国内外大模型已在办公、教育、医疗、金融、文娱、交通等领域落地应用,从行业渗透率
46、来看,金融业的渗透率最高,已达 78,在微软、金山办公等龙头企业的带动推广下,在办公领域的渗透率也比较可观,而能源和建筑行业的渗透率较低66。图 2.3 大模型垂直应用行业部署与应用成熟度67在全球,已经有金融行业如 Stripe、Bloomberg;零售行业如可口可乐;生命66钛媒体.2023 中美 AI 大模型应用比较研究报告,http:/ 中美 AI 大模型应用比较研究报告,http:/ Profluent、absci;能源行业如 C3.ai 开始将生成式 AI 应用到内容创建、知识发现、智能客服等场景,引领了行业企业采用新一代 AI 的风潮68。大模型在垂直领域应用的案例不断涌现,以下
47、作简要介绍,国内外更多的大模型行业应用可见相关文献69、70、71、72、73、74、75、76、77。2.4.1 医药健康医药健康医学方面,ChatDoctor 是一个在 LLaMA 上微调的医学领域大模型78。在相关研究中,研究团队从在线医疗咨询网站“HealthCareMagic”收集了约 10 万条真实的医患对话,并对这些数据进行了人工和自动过滤等预处理作为训练数据。再从在线医疗咨询网站 iCliniq2 收集了大约 1 万条医患对话用于评估模型的性能。对于医疗场景中的问答,研究团队收集并编译了一个数据库,其中包括大约 700种疾病及其相关症状、进一步的医学测试或措施以及推荐的药物治疗
48、。该数据库可以随时更新,无需重新训练模型。基于此,ChatDoctor 可以检索相应的知识和可靠的来源,以更准确地回答患者的询问。构建完外部知识大脑后,通过构造适当的 prompt 让 ChatDoctor 自主检索其所需要的知识。华南理工大学有一款名为“灵心”的心理陪伴机器人,研究团队构建了超过 15 万规模的单轮长文本心理咨68https:/ AI 而行 共筑新质生产力行业大模型调研报告,http:/ 生成式 AI 白皮书,https:/ AI大模型产业发展报告,http:/ 年),https:/ 中国 AIGC 应用全景报告,https:/ The AI Founder Report B
49、usiness Impact,Use Cases,Tools,https:/blazpregelj.si/2024-hampton-ai-business-report-uses-tools-and-business-impact/,202477赵鑫,李军毅,周昆,唐天一,文继荣.大语言模型,https:/llmbook-zh.github.io/,2024.78Li Y,Li Z,Zhang K,et al.Chatdoctor:A medical chat model fine-tuned on a large language modelmeta-ai(llama)using medic
50、al domain knowledgeJ.Cureus,2023,15(6).17询指令与答案,回答数量超过 50 万(指令数是当前的常见的心理咨询数据集PsyQA 的 6.7 倍),并利用 ChatGPT 与 GPT4,生成总共约 100 万轮次的多轮回答数据(SoulChatCorpus-multi_turn),其选择了 ChatGLM-6B 作为初始化模型,进行了全量参数的指令微调,旨在提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力79。2024 年 5 月,Google 发布了基于 Gemini 模型家族的多模态医学 AI 模型 Med-Gemini,通过自训练微调和网络搜
51、索集成进行高级推理,通过微调和自定义编码器提高多模态理解,使用推理链进行长文本处理80,在所有可以直接比较的基准测试中都超过了 GPT-4 系列模型。诸多医药公司将人工智能视为核心战略,如制药巨头礼来公司(Eli Lilly and Company)宣布一系列人工智能药物发现合作伙伴关系;诺和诺德(NoNo nordisk)将 AI 视作加速药物开发的潜在关键,自 2022 年以来一直与微软合作构建 AI 模型,一个案例是通过分析研究成功提高了预测个体动脉粥样硬化风险的准确度,并计划利用这些发现来指导心血管疾病治疗靶基因的开发81。2.4.2 金融保险金融保险金融保险领域中,摩根士丹利财富管理
52、部门开发了一项面向内部的服务,利用 OpenAI 技术和摩根士丹利庞大的智力资本,在几秒钟内将相关内容和见解交付到财务顾问手中,帮助提高效率和规模82。2024 年 5 月,摩根大通(J.P.MorganChase)发布了生成主题投资篮子的人工智能工具 IndexGPT。IndexGPT 使用OpenAI 的 GPT-4 模型和自然语言处理技术,生成与特定主题相关的关键词列表,不仅分析新闻文章来识别参与该领域的公司,并且集成了深度分析功能,用于分析复杂的金融、新闻数据,挖掘潜力公司,帮助客户识别有商业价值的股票,扩展投资视野至非传统企业,制定多样化的主题投资策略83。Visa 和万事达两家金融
53、服务企业均将最新的人工智能技术应用于欺诈检测方面,预测交易是否合法。保险企业联合健康(UnitedHealth Group)正在使用人工智能和自然语言处理来79https:/ K,Tu T,Weng W H,et al.Capabilities of Gemini Models in MedicineJ.arXiv preprint arXiv:2404.18416,2024.81https:/ 文化教育文化教育文化教育领域中,Legible 将 Open AI 的 ChatGPT 集成到其专有的电子书店搜索引擎中,提供一个全新的方式来访问其目录中的两百万本电子书。LibrarianAI 可用
54、任何语言流利地交谈,提供快速、友好、全面地响应和建议以及有关图书内容的信息85。Storybird 公司的一个绘本制作平台,只需要输入 1000词以内的提示词,平台就可以生成一本完整的、带有精美插图的故事书。书籍还能上架网站和亚马逊进行售卖。清华大学于 2023 年 9 月 28 日启动“清华大学人工智能赋能教学试点课程工作方案”,AI 智能助教系统使用 GLM 模型为技术底座,通过学科专业资料搭建垂直模型,并辅助知识库,支持个性化学习支持、智能评估和反馈,辅助学生进行深入思考86。北京邮电大学于 2024 年初发布基于讯飞科技文献领域大模型的 AI 科研助手,帮助科研人员进行深入的科研成果调
55、研并进行智能分析,通过对话方式深入探索文献内容,生成研究文献综述87。国内外数据库产商或学术搜索服务商也都推出了各类 AI 应用助手,如 ScopusAI88、Elsevier SciBite Chat89、CNKI AI 学术研究助手90、SciSpace91、Elicit92、Aminer93、ReadPaper94等。此外,中国科学院文献情报中心与科大讯飞合作研发了科技文献大模型,并基于此模型研发了“成果调研、论文研读和学术写作”三大功能的星火科研助手95。同方知网则与华为共同打造了全栈自主可控的中华知识84https:/ APP 微信读书和得到则在 2024 年上半年灰度上线了 AI
56、功能。前者提供了翻译、大纲总结和智能问答,后者主要功能是内容总结和智能搜索。文化遗产方面,字节跳动和北京大学合作推出的识典古籍于 2024 年 3 月上线了基于云雀大语言模型开发的“古籍智能助手”。“助手”重点利用检索增强生成技术,利用字典中的条目,或者古籍数据库搜索结果作为上下文,然后通过大语言模型综合总结并给出回复。同时,“助手”也提供语义检索功能,在回答时能参考到虽然文字不一样、但含义相关的古籍段落97。Livdeo 的 MultilingualAudio Chatbots forMuseums and Cultural Institutions 利用 NLP 和 AI 技术,支持访客与
57、虚拟的历史艺术名人进行多语种的对话,为参观者提供独特的互动体验98。96https:/ 大模型对图书馆的影响第三章 大模型对图书馆的影响3.1 图书馆大模型影响分析图书馆大模型影响分析生成式人工智能的发展可能对图书馆产生“广泛而深刻”的影响。探讨当前大模型技术的能力与影响,有助于在图书馆中应用最新的 AI 技术,为智慧图书馆建设提供新的技术路径和赋能支撑。IFLA 人工智能特别兴趣小组在 2023 年 11 月 20 日发布的图书馆对人工智能的战略响应中指出,新一代人工智能技术对图书馆领域产生了显著影响。报告特别提到了人工智能技术在图书馆中的应用,包括馆藏资源的规模化描述、AI 增强或创建元数
58、据、智能用户咨询、文献发现服务、后端业务系统的 AI 优化,以及提升公众 AI 素养等方面,对图书馆系统、用户、馆藏、特藏、元数据、设施、推广、培训、策划团队都有重要影响99。大模型被广泛考虑作为多种任务的通用工具,这归功于大模型的核心能力,基于这些能力,大模型能够执行多种任务。为进一步梳理大模型技术的影响,本报告从大模型的核心能力出发,考虑对图书馆行业主要业务具体影响。大模型的核心能力包括语言理解、信息匹配、内容生成、知识承载等基础能力,以及拥有上下文学习、思维链推理、指令跟随等涌现能力100。基于这些能力,大模型能够执行文本生成、语义理解、信息抽取、任务推理、机器翻译、文本分类、总结摘要、
59、模态转换、数据分析、知识图谱构建等各类任务。大模型的这些功能使得大模型在智能问答、信息检索、个性化推荐和内容生成等场景展现出显著的自动化和智能化优势,从而极大地提升了信息处理的效率和输出的质量,推动了人工智能技术的广泛应用和持续创新。表 3.1 从大模型典型任务能力出发,分析其在图书馆中的作用和影响。通过这些能力的运用,图书馆可以提高服务效率、增强用户体验,并推动图书馆服务的创新和发展。作用影响的图书馆领域包含了参考咨询、资源发现、学术服务、数字人文、阅读推广、图书馆系统、采编、知识加工、管理决策等几个典型领域。这些领域融入大模型的能力,可以满足智慧图书馆中不同类型的需求,包括功能99http
60、s:/www.ifla.org/g/ai/developing-a-library-strategic-response-to-artificial-intelligence/100上海图书馆(上海科学技术情报研究所)等.智慧图书馆大模型创新与应用白皮书,https:/ 3.1 大模型典型任务功能对图书馆的作用影响大模型典型任务功能大模型典型任务功能作用与影响作用与影响影响领域举例影响领域举例文本生成自动生成各类文档、报告、新闻稿等,辅助图书馆内容创作和信息发布。可用于创作、学习与开发。学术研究、阅读推广等语义理解理解用户查询的深层含义,提供更精准的咨询回复、搜索结果等信息服务。可用于问答式交
61、互。信息检索、交互问答信息抽取可探索对话式发现,改变图书馆资源检索、资源推荐模式。检索推荐、资源发现等任务推理理解并执行复杂的用户指令,自动化完成特定的图书馆服务任务。图书馆服务平台、后端系统AI 升级、机器流程自动化等机器翻译将不同语言的文献资料进行互译,扩大服务范围和读者群体。可用于多语言文献服务、跨语言阅读。读者服务、文献服务、学术研究等识别分类对图书馆资源进行自动分类、自动标注、元数据创建,优化资源组织和检索效率。采编、数字资源加工与开发、数字人文研究等总结摘要自动生成文献或报告的摘要,帮助用户快速把握核心内容。资源发现、学术研究等模态转换将文本信息转换为图像或视频,增强信息的可访问性
62、和表达力。可用于多媒体档案保存、内容制作、信息可视化、阅读障碍支持。阅读推广、数字人文等数据分析可进行数据处理、格式转换、报表分析、指标分析、数据挖掘。可在图书馆数据系统、数据中台基础上,构建 AI 数据分析能力,提升运营效率。业务分析、用户行为分析、决策支持等知识图谱构建可构建和维护知识图谱,增强图书馆的知识管理和服务能力。数字人文、知识管理、学术研究、学科服务等22大模型技术对图书馆的影响,主要源于生成式 AI 变革了技术服务模式和内容生产方式,从而带来了三点重要改进。一是人机交互界面的革新推动了图书馆服务场景和业务场景的智能化。生成式 AI 变革了用户与图书馆服务的互动方式,实现了用户界
63、面的突破,使得用户能更直观、高效地与信息资源互动,提高了信息检索和内容获取的便捷性。大模型能准确理解用户需求,转化为任务,调度资源,最终清晰呈现结果。二是知识管理与服务的智慧化加深促进了图书馆服务模式的创新与变革。生成式 AI 能够实现精准的语义理解和复杂的文本分析,自动化地生成和丰富元数据,构建起揭示知识内在联系的知识图谱,同时提供个性化的信息服务和多模态内容处理,加之其趋势预测与模式识别功能,极大地提升了图书馆在知识组织、存储、检索以及服务提供上的效率和深度,从而深化了图书馆的知识管理与服务。三是任务处理的自动化促进了业务流程优化和工作效率的提升。利用生成式AI 的强大的内容生成和处理能力
64、,图书馆能够自动化执行繁琐的任务,从而释放人力资源,提升工作效率和服务质量。生成式 AI 技术实现了知识的高效模式转换,能够执行总结、提炼、抽取、萃取、转换、解析和洞察等多种操作,利用现有数据知识生成丰富多样的内容,包括多模态内容。因此,大模型技术的发展对图书馆的变革影响主要体现在以下五个方面,这些变革共同推动了图书馆未来服务模式的转型,为图书馆的发展开辟了新的可能性。(1)革新知识交互方式。)革新知识交互方式。新一轮的 AI 变革,推动未来人机交互应用从图形化界面向对话式交互界面转变。随着大模型的应用落地,图书馆服务可以提供更智能、更高效、更个性化的交互方式,提供基于自然语言的、多模态的、更
65、直观的参考咨询、文献检索与知识服务。(2)改变知识集成方式。)改变知识集成方式。大模型技术通过自动化生成元数据、跨语言处理、知识链接和语义搜索,显著提升了图书馆知识集成的效率和深度,构建起一个多维度、互联互通的知识网络,从而促进了知识的发现和创新。(3)优化资源加工流程。)优化资源加工流程。大模型技术通过文本图片语音识别、自动元数据生成、自动标注与分类、自动摘要总结、知识图谱构建等,提高了图书资源加工效率,降低人力成本。这将使图书馆资源的标准化加工流程从手动模式向半自动或自动23模式转变,进一步提高图书馆资源加工的效率和质量。(4)激发本地特色资源价值。)激发本地特色资源价值。利用生成式 AI
66、 技术,对图书馆的古籍资源、地方特色资源等历史文化特色馆藏资源进行开发、挖掘、利用,充分发挥语料价值,增强资源的表现力和吸引力,有效活化典籍知识,弘扬中华经典文化、区域特色文化,激发这些资源的文化影响力。(5)提升图书馆管理决策能力。)提升图书馆管理决策能力。大模型应用可以更好地对图书馆的各项业务数据进行指标监控与分析挖掘,提供科学合理的决策支持,为图书馆业务优化、资源配置提供分析建议,从而提升图书馆的智慧化管理水平和效果,辅助图书馆管理决策更加科学、合理和有效。图 3.1 大模型技术对图书馆的影响3.2 图书馆大模型应用策略图书馆大模型应用策略在深入思考图书馆大模型应用之前,有必要探讨生成式
67、 AI 的应用策略及应用方式。国际图联(IFLA)在其图书馆对人工智能的战略响应中,提出了三项策略建议,旨在指导图书馆如何有效利用 AI 技术,提升服务效能,同时确保其应用的伦理性和可解释性。三项策略分别是:利用图书馆的 AI 能力构建负责任且可解释的描述性 AI 应用;利用图书馆员的数据能力增强组织的 AI 能力;24推广人工智能素养以提升组织和社会的 AI 能力101。此外,美国国会图书馆(Library of Congress,简称 LC)提出了 AI 规划框架,强调了在 AI 系统中数据、模型和人员三个要素的重要性,并提出了“理解、实验和实施”分阶段的方法论,以实现负责任的 AI 实践
68、102。图书馆可在上述权威性 AI 应用策略的指导下进行实践,本报告归纳了如下的策略要点供图书馆进行参考:(1)考虑馆藏与数据价值)考虑馆藏与数据价值对图书馆数据与资源进行分析,以识别和评估潜在的数据源,特别是对于古籍和特藏,明确可以优先应用 AI 技术的数据。高度重视数据治理,包括数据清洗、集成和质量保证,确保数据的准确性和可靠性。推广数据共享、开放性和互操作性。(2)进行概念验证与服务转化)进行概念验证与服务转化实施小规模的概念验证项目,以测试生成式 AI 技术在图书馆服务中的可行性。对于技术挑战(例如图像分类等)开发或整合高效的 AI 算法,提升处理的精确度。成功的概念验证项目应转化为可
69、持续的服务,以实现技术的长期价值。(3)持续监控与质量保证)持续监控与质量保证建立监控机制,根据反馈持续改进 AI 服务,确保服务质量。考虑使用数据为中心的评估方法,通过科学地评估和测试,确保 AI 系统的稳定性和可靠性。以迭代、循环的方式,长期优化、监控应用。建立质量标准基线,搜集用户反馈。(4)积极培训与社区参与)积极培训与社区参与提升图书馆员工和用户的 AI 素养,并通过社区反馈优化服务。支持并参与图博档机构合作、行业机构联盟,以开放、共享、创新、合作为核心要素,整合来自不同机构的独特资源和专业知识。(5)做好经济性与工具评估)做好经济性与工具评估对 AI 技术应用进行成本效益分析,确保
70、所选工具和解决方案在预算内提供最大的价值。评估不同 AI 工具的性能,选择那些能够最大化投资回报率的工具。(6)关注法律与伦理框架)关注法律与伦理框架确保 AI 应用遵守所有相关的法律法规,特别是在数据保护、版权和知识产101https:/www.ifla.org/g/ai/developing-a-library-strategic-response-to-artificial-intelligence/102https:/blogs.loc.gov/thesignal/2023/11/introducing-the-lc-labs-artificial-intelligence-plann
71、ing-framework/25权方面。建立伦理审查流程,确保 AI 应用不会侵犯个人隐私,避免算法偏见和歧视。3.3 图书馆大模型应用路径图书馆大模型应用路径图书馆应根据领域(场景)特定需求,探索大模型应用方式与路径,以促进服务优化和提升读者体验。我们鼓励图书馆与软硬件供应商合作,逐步将生成式AI 技术应用于智慧图书馆中,以实现图书馆服务业务的智能化升级。本报告归纳了图书馆整合和应用生成式 AI 技术的六种方式路径。(1)无需开发集成的)无需开发集成的 AI 服务:服务:图书馆无需进行任何开发工作,重点放在AI 素养、数据素养等相关内容培训。这种方式不需要图书馆参与技术应用开发,而是侧重于通
72、过馆员组织培训、活动等方式向用户和社会提供 AI 服务。该路径无需系统开发、无需数据处理。(2)直接集成应用的)直接集成应用的 AI 产品工具:产品工具:图书馆几乎不需要进行开发工作,可以直接集成第三方提供的 AI 产品服务。这种方式主要依赖于第三方 AI 产品的性能和适用性,为图书馆直接所用。例如不少图书馆上线资源商开发的 AI 学术助手产品,以及为图书馆用户提供现成的 AI 画图工具等。该路径可以直接购买服务,开发量低、几乎无需数据处理。(3)需整合开发的)需整合开发的 AI 产品与服务产品与服务:图书馆通过有限的开发工作,实现已有AI 产品的对接。该应用方式下,图书馆需要对运营数据、服务
73、数据、资源数据等进行一定程度的适配和优化,以确保 AI 产品与图书馆平台服务无缝集成。例如基于图书馆资源与服务的智慧咨询、增强检索、智慧推荐等。该路径侧重于前端服务升级,以及可能的后端轻量化改造。该路径有一定的开发工作量,一定量的数据处理任务。(4)集成定制开发的后端)集成定制开发的后端 AI 流程:流程:图书馆通过集成定制,进行后端业务流和系统的智能升级。通过在后端业务中融入大模型技术,基于图书馆的运营数据、服务数据、资源数据进行分析、处理,提供 AI 支持的结果展现、建议决策等。例如后端系统中的自动编目与元数据生成,辅助数字资源的加工与开发,图书馆服务平台(LSP)副驾驶等。该方式面临着较
74、大的开发工作和数据处理任务。(5)自主)自主/联合开发的联合开发的 AI 原生应用:原生应用:图书馆利用自身馆藏数据、用户数据,投入资源,开发新型前后端的 AI 原生应用。此类应用需要对图书馆资源数据进26行清洗、标注、处理等工作,以确保数据质量和应用的准确性。通过这些原生应用的开发,图书馆将能够提供具有行业特色和个体特色的个性化的智能应用。该路径开发工作量大,数据处理任务重。(6)参与研发行业基础大模型:)参与研发行业基础大模型:图书馆参与到行业基础大模型的研发过程中。图书馆利用其丰富的文献资源和专业知识,与技术合作伙伴共同构建大规模语料库,为模型训练提供数据支持。此外,图书馆参与到行业大模
75、型的设计、开发和优化工作中,确保所研发的行业大模型产品能够满足图书馆行业落地应用需求。该路径需要深度的数据准备和技术研发能力。图 3.3 图书馆大模型应用的六种路径举例上述六种图书馆大模型应用路径,在实现难度、资源需求、技术依赖性上从易到难,预计图书馆将以符合现有角色、与用户需求紧密相关或需要最少资源的方式来应用人工智能。对于路径 1,在推广人工智能素养方面发挥领导作用,是当前最符合现有图书馆实践和图书馆员身份的策略。对于路径 2-5,在实施负责任的 AI 应用时,建议大多数图书馆基于 MasS 服务模式,选择成熟的基础大模型作为应用底座进行应用。对于路径 6,要求图书馆具备一定的资源能力、技
76、术能力或研究能力。例如瑞典国家图书馆案例,图书馆训练了多个瑞典语模型提供服务103。图书馆也可考虑与外部合作,例如国家图书馆目前就已与百度展开战略合作,携手文心一103https:/ AI 服务的图书馆,可以考虑从集成第三方 AI 服务开始,逐步积累经验和技术能力。对于具有较强技术实力和研究背景的图书馆,可以考虑自主研发或联合开发 AI服务产品,以实现更高水平的创新和服务质量提升。其次,深入的需求分析是确保 AI 应用能够切实解决问题、提升服务体验的前提。此外,风险评估与管理是保障 AI 应用稳健性的重要环节,图书馆需制定相应的风险管理策略,以应对潜在的技术风险和道德挑战。为了适应技术的快速发
77、展,图书馆还需制定长期的AI 技术发展规划,以保持其服务的前瞻性和竞争力。3.4 图书馆大模型应用范式图书馆大模型应用范式图书馆通过上述六种实施路径,在 AI 应用策略方针的指导下,成功地运用并实施生成式 AI 技术,以此深入智慧图书馆的转型。这一转型主要体现在两种主要的应用方向。一方面,图书馆通过优化现有工作流程,将传统的应用通过集成 AI 技术进行重塑,提高了服务质量和流程效率;另一方面,图书馆开创开发AI 原生应用,推动图书馆服务智能化跨越式发展。这正对应了智慧图书馆大模型创新与应用白皮书中“智慧图书馆+大模型”“大模型+智慧图书馆”两种不同的应用范式105。传统应用的传统应用的 AI
78、重塑:重塑:这一类别中,传统的图书馆应用通过集成 AI 技术得到增强、优化、重塑,从而提高服务质量和流程效率。例如员工知识库的智慧升级、AI 辅助的采编流程、数字资源的加工与开发等,通过优化现有工作流程,提升了馆员的工作效率。此应用方向体现了以图书馆业务场景为核心,通过接入大模型的智能化能力实现服务和效率的双重提升,即“+大模型”的应用范式。104https:/ AI 原生应用:原生应用:关于原生应用这一概念并没有准确的定义,仍存在不同的理解。本报告中认为大模型原生应用即那些将大模型技术作为核心功能和价值支撑的应用。这一类应用直接根植于生成式 AI 技术最核心的能力,如提供个性化服务和内容创新
79、创造。典型的原生应用例如智能聊天机器人、AI 写作助手、多模态创作工具等,为图书馆的内容服务带来创新动力;比较具有行业典型性的AI 原生应用如:AI 研究助手、个性化学术教练等,为用户提供定制化的信息和学术支持。路径 5 中“自主/联合开发的 AI 原生应用”,可兼具行业的典型性及图书馆个体的特色性。随着 AI 技术的不断发展,越来越多的原生应用将被开发应用,智慧图书馆中的大模型应用则逐渐由“+大模型”向“大模型+”范式转变。当然,原生应用中还包括了智未触及的智未触及的 AI 应用领域应用领域。尽管当前尚未广泛实现,但前景广阔,这类应用代表着未来的颠覆性创新。例如包括基于智能体的流程自动化、具
80、身智能应用以及高智能 AI 员工等概念。这些潜在应用有望进一步扩展图书馆的服务范围,实现服务的自动化和个性化,为图书馆带来前所未有的发展机遇。图 3.4图书馆“+大模型”与“大模型+”应用范式293.5 图书馆大模型技术架构图书馆大模型技术架构为实现图书馆大模型的应用,需要对现有信息化基础架构进行扩展,建立适应大模型应用需求的技术架构,包括底座、模型、平台和应用等方面,旨在提供高度扩展性和集成性,以满足图书馆的发展和创新需求。图书馆大模型应用可基于现有信息化基础架构进行扩展,满足大模型应用需求,包括底座、模型、平台和应用等方面,旨在提供高度扩展性和集成性,以满足图书馆的发展和创新需求。图 3.
81、5 图书馆大模型技术架构(1)底座层:硬件方面要考虑 GPU 或 CPU 设备,还要关注最新的硬件进展。例如,NVIDIA 的 TensorRT 是一个为深度学习推理优化的软件库,而 Intel的 OpenVINO 则提供了跨不同硬件的 AI 推理优化。在选择云端或本地部署时,有华为、腾讯、阿里等供应商,还需综合考虑其他因素,如成本、安全性、可用性等。公有云服务如 Azure、AWS 提供的容器服务和 Kubernetes(K8S)可以用于实现资源的弹性伸缩和智能调度。(2)模型层:大模型的部署不仅限于云端或本地,还应考虑模型即服务(MaaS)的兼容性。MaaS 模式涉及模型的全生命周期管理,
82、从数据处理到特征工程,再30到模型训练、调优和部署。此外,模型服务还包括 API 和开发工具,以便于开发者和企业能够快速集成和使用大模型。大模型的发展和应用正在不断扩展,包括在多任务、多数据类型或多领域中的使用。云端大模型的提供商需要遵守相关的管理办法,如生成式人工智能服务管理暂行办法。(3)平台层:平台层的设计应支持与现有图书馆服务平台、数字人文平台等的集成,并能够通过 API 网关与各类信息化应用对接。模块化的大模型应用框架,如 Langchain、Dify 和 FastGPT,提供了易于扩展和定制的能力。运维工具如 LangSmith 和 PromptLayer,监控工具如 arize、
83、fiddler 和 Helicone,以及防火墙如 arthur shield,都是平台层的重要组成部分,确保大模型应用的稳定性和安全性。(4)应用层:应用层的设计应包含应用框架和数据管理,提供应用级的基础组件。例如,LangChain 提供了一个用于构建和部署大模型应用的框架。数据管理工具如 LlamaIndex 和 MindsDB,可以帮助组织和检索大量的结构化和非结构化数据。向量数据库如 chroma、Milvus 和 Weaviate,对于处理和索引大规模的向量数据尤其重要。此外,应用和工作流工具如 Retool、Streamlit 和 gradio,可以用于快速开发和部署基于大模型的
84、应用程序。根据当前阶段图书馆领域大模型应用的共性特点,我们在图书馆大模型应用架构的应用层中需要设计和规划一系列基础功能,以满足多样化的图书馆服务需求。这些功能组件包括智能问答、知识库管理、资源推荐、自动标引与分类、文本内容生成、图像和多媒体处理、数据处理与分析,以及工作流编排和管理等。通过构建这些功能组件,我们能够实现功能的模块化和复用,从而提高系统的灵活性和管理效率,以满足不断演化的图书馆服务需求。31第四章 智慧图书馆中的大模型应用第四章 智慧图书馆中的大模型应用图书馆应积极关注并推动生成式 AI 的创新应用和场景落地,尤其要关注大模型技术如何有效提升服务成效和服务质量。虽然大型模型技术仍
85、在持续迭代,生成式 AI 技术也在不断发展之中,但图书馆可以积极思考挖掘大模型技术在智慧图书馆中的应用潜力,提出需求期望,引导技术厂商开发实践,把握住未来发展的主动权。智慧图书馆大模型创新与应用白皮书中指出,智慧图书馆大模型应用将主要体现智慧服务、智慧业务、智慧管理、智慧空间四个方面106。根据当前技术发展现状,下文重点梳理智慧图书馆建设中,那些当前可实验、实施或展望的AI 应用。图 4.0 智慧图书馆中的可实验、实施或展望的大模型应用106上海图书馆(上海科学技术情报研究所)等.智慧图书馆大模型创新与应用白皮书,https:/ 智慧服务中的大模型应用智慧服务中的大模型应用大模型技术赋能了图书
86、馆的传统服务,并驱动了图书馆的新型服务,进而推动智慧服务的创新发展。大模型技术应用在智慧服务中主要集中在增强客户体验,体现在如下几个领域:一是智慧读者服务的智能升级。一是智慧读者服务的智能升级。通过自然语言处理技术提供智能问答服务、个性化推荐等,带来读者服务中的咨询问答、检索发现、资源推荐的智能升级。这些应用已经开始由图书馆厂商开发并逐步推向市场。二是学术与专业服务的新范式。二是学术与专业服务的新范式。大模型将散落在信息海洋的特定知识片段连接起来,并进行推理、分析、对比、归纳,为知识服务铸造新的价值,为研究者提供个性化的学术辅助和服务,促进形成学术服务、专业服务、情报服务、教学与学科服务的新范
87、式。以“学术助手”“AI 助教”为典型的应用产品也已在市场推出。三是驱动图书馆创新服务。三是驱动图书馆创新服务。通过激活自有数据价值,结合元宇宙等新技术,图书馆能够提供更加沉浸式的阅读体验,促进知识的互动传播,从而在人文服务领域开辟新的前沿。这类应用目前主要体现在结合特藏的 AI 数字馆员服务、AI阅读产品创新体验、AI 知识服务等领域。针对智慧服务中上述重点领域,对大模型应用目标及应用建议等简要梳理如下107。(1)传统服务赋能领域)传统服务赋能领域 1:智慧咨询服务目标:智慧咨询服务目标:使用大模型为读者提供准确、实时的信息咨询服务。模型能力:模型能力:问答对话、搜索/信息抽取等建议:建议
88、:结合多知识库、支持不同的读者服务部门。读者可以自助进行图书馆咨询问答,问答内容可包括:图书馆政策服务问答指导,结合业务系统的图书资源咨询、活动咨询、用户使用咨询、使用故障解决等。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:需整合开发的 AI 产品与服务领域领域 2:智能检索与发现智能检索与发现107注:本章中所呈现的目标设定、应用建议、模型能力、技术方案、应用路径旨在提供参考,并非唯一确定的解决方案。33目标:目标:运用大模型帮助读者快速、准确地发现和检索到他们所需的信息和资源。模型能力:模型能力:问答对话、搜索/信息抽取等建议:建议:支持图书馆采购的所有纸质资源、电子数据
89、库、自建数据库的智能检索与发现。引入智慧增强功能,优化检索过程,借助自然语言处理和多轮对话系统,使读者能够以更直观、更高效的方式来发现馆藏的纸质和数字资源。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:需整合开发的 AI 产品与服务领域领域 3:个性化智能推荐目标:个性化智能推荐目标:通过大模型技术,为读者提供全新智能化的书籍和资源推荐。模型能力:模型能力:问答对话、搜索/信息抽取、数据分析等建议:建议:利用大模型优化原先的资源关联推荐算法,优化个人主动推荐功能与算法。改变当前读者个性化推荐的交互形式,改善用户对馆藏的访问。整合现有图书资源数据、自建资源、整合出版社新书数据、公
90、信力书单数据,构建跨库跨模态的图书馆专用的资源推荐知识库。整合图书馆数据库介绍、数字资源介绍,构建数据库推荐知识库。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:需整合开发的 AI 产品与服务领域领域 4:智慧学术服务目标:智慧学术服务目标:利用大模型对海量学术文献进行深度分析和处理,提供深度学术研究支持。模型能力:模型能力:问答对话、搜索/信息抽取、文本理解、机器翻译、数据挖掘、数据分析、文本生成等建议:建议:通过大模型技术,提供问答式智能检索、学术文献推荐、深入挖掘学术资源,发现潜在的研究方向和创新点,帮助实现个人文献管理与知识研究智能化,协助文献综述、数据分析和解释等。支
91、持图书馆购买的现有电子数据库,无论数据库供应商是否提供 AI 相关功能。改进图书馆学科领域的特色专题服务,提供基于学科领域的数据分析、知识图谱问答服务。技术方案技术方案:提示词工程、RAG、智能体34应用路径应用路径:直接集成应用的 AI 产品工具、需整合开发的 AI 产品与服务领域领域 5:智慧情报服务目标:智慧情报服务目标:运用大模型提供更加丰富、智慧的情报服务产品。模型能力:模型能力:问答对话、搜索/信息抽取、文本理解、机器翻译、数据挖掘、数据分析、文本生成等建议:建议:大语言模型推动情报的采集、处理、分析及服务流程发生改变,使情报服务更加自动化、智能化。例如提供即时、精准、智慧的情报咨
92、询服务,满足用户个性化的信息需求。智能深入分析情报内容,揭示深层次的洞见。提供智慧分析工具、文献阅读、文献问答等服务。利用文本生成技术自动编制情报报告,提升服务效率。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:直接集成应用的 AI 产品工具、需整合开发的 AI 产品与服务领域领域 6:智慧教学与学科服务目标:智慧教学与学科服务目标:针对高校图书馆未来学习中心建设要求,运用大模型技术提升教学与学科服务的智能化水平,以实现个性化学习和研究支持。模型能力:模型能力:问答对话、搜索/信息抽取、文本理解、机器翻译、数据分析、文本生成等建议:建议:提供 AI 学习助手,增强个性化学习路径
93、规划、互动式学习体验、学习效果评估、学习资源推荐。促进跨学科知识融合,支持复杂问题求解。快速响应师生的学术咨询,提升研究效率。探索基于数据驱动的教学质量分析,为教学方法改进提供决策支持。技术方案技术方案:提示词工程、RAG、智能体、模型微调应用路径应用路径:直接集成应用的 AI 产品工具、需整合开发的 AI 产品与服务、集成定制开发的后端 AI 流程、自主/联合开发的 AI 原生应用(2)创新服务驱动领域)创新服务驱动领域 7:虚拟人、数字人、虚拟人、数字人、AI 数字馆员数字馆员35目标:目标:整合大模型技术,使虚拟人和数字人成为图书馆服务的重要力量,以提升用户体验感。模型能力:模型能力:问
94、答对话、搜索/信息抽取、语音识别与合成等建议:建议:利用虚拟人和数字馆员实现 24/7 在线咨询服务,提供及时且准确的信息查询、阅读辅助;结合特藏资源,提供 AI 解析与内容服务;结合阅读推广服务,运用它们举办多样化的阅读推广活动,增加自由资源的可见度,增加读者的参与度。引入 AI Agent 业务流编排,使得虚拟人具有设定专业能力从而向 AI 数字馆员升级。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:直接集成应用的 AI 产品工具、需整合开发的 AI 产品与服务领域领域 8:智慧创新阅读与体验目标:智慧创新阅读与体验目标:利用大模型为广大读者提供新颖、智慧的新型阅读体验服务
95、。模型能力:模型能力:问答对话、搜索/信息抽取、文本生成、图像与语音识别、多模态创作等建议:建议:需要开拓创新。除了引入 AI 阅读工具辅助文献阅读外,可重点结合阅读推广服务,开发 AIGC 创新型阅读体验,例如基于特色馆藏的 AIChatbot,融入AI 的场景游戏,读者多模态创作体验,利用 AI 增强元宇宙沉浸式阅读的互动性等。技术方案技术方案:提示词工程、RAG、智能体应用路径应用路径:直接集成应用的 AI 产品工具、需整合开发的 AI 产品与服务、自主/联合开发的 AI 原生应用领域领域 9:数据与知识服务产品目标:数据与知识服务产品目标:发挥图书馆专有数据、基础数据设施优势,构建全新
96、 AI 数据服务、知识服务、模型语料提供等,提高知识的传递能力。模型能力:模型能力:问答对话、搜索/信息抽取、文本图像识别、知识图谱理解与构建、内容生成等36建议:建议:需要开拓创新。结合图书馆丰富的历史档案、历史文献、古籍资源,创新数字人文服务,为用户提供智慧的历史人文阅读分析平台、可视化交互平台。另一方面,尝试语料库建设,开发专有领域模型训练语料库、知识库产品,开发中间层和应用层产品,通过跨界合作、资源整合、服务对象拓展,提供基于 AI 的人文知识服务、深度解析服务、艺术及文学作品溯源服务,提供诸如古籍 AI 解读、AI 碑帖识别、历史人/物识别、人文 AI 创作体验服务等。技术方案技术方