国泰君安：2024基于大模型驱动的云网全景可观测系统建设实践报告（18页）.pdf

《国泰君安：2024基于大模型驱动的云网全景可观测系统建设实践报告（18页）.pdf》由会员分享，可在线阅读，更多相关《国泰君安：2024基于大模型驱动的云网全景可观测系统建设实践报告（18页）.pdf（18页珍藏版）》请在本站上搜索。

1、基于大模型驱动的云网全景可观测系统建设实践高坤国泰君安证券股份有限公司IOE技术体系(集中式架构)集中式平台快速软、硬故障定界定位（一般问题闭环 30min）(java/C+)业务系统平滑迁移、应用多活、高性能、超大规模KXCP/KCBP/REDIS/Ngnix强一致性（交易+批量计算）SQL server/Oracle分钟级备切换，最低99.99%可靠性OS、x86硬件平台云化技术体系(云原生、分布式架构)云化、分布式架构中间件(消息、事务、缓存、调用链等)IaaS云底座证券新核心业务微服务框架云原生容器融合分析大数据平台分布式交易数据库DC1DC2DCn3类云化，6大技术点云原生技术体系I

2、aaS云底座分布式交易数据库云原生容器基础设施融合分析大数据平台微服务框架中间件（消息、事务、缓存、调用链等）业务应用重构业务系统云原生化传统数据库分布化基础设施全面云化业务系统中间件分布式云原生架构基础设施全面云化传统数据库分布化业务系统云原生化承载各类业务系统生产、同城及异地灾备环境基于CloudStack上线开发测试云，实现计算和分布式存储统一管控金融云发展时间轴完成国家云平台课题验收，发布CMP1.0，实现IAAS资源自服务基于Openstack上线开发测试云2.0，发布CMP2.0，实现对异构资源的统一纳管上线生产云、开发测试容器云平台上线开发测试信创云，并发布基础资源服务平台1.0

3、上线生产信创云，托管云，发布基础资源服务平台2.0，实现一云多芯管理建设开发测试云、生产云、集团协作云、开放生态云四朵云努力打造全行业领先的自主开发、自主掌控的国泰君安金融全栈云云总体布局2013年2014年2015年2017年2019年2020年规划路线加速云原生建设，完成“一云多芯”信创、非信创多元算力，资源统一管理，实现云边协同，资源敏捷交付 2023年加速云原生基础设施建设夯实数字基础设施升级，扩大云资源规模，推进高效敏捷开发向以应用为中心的架构演进，实现应用敏捷开发，提升应用迭代速度2024年云原生应用敏捷开发实现两地多中心全栈云原生服务能力全覆盖，完成存量系统整体迁移到全栈云。

4、2025年全栈能力全覆盖承载各类业务系统开发测试环境承载资产管理、期货、创投等各子公司的业务系统承载量化私募、PB等外部客户的业务系统生产云开发测试云集团协作云开放生态云聚焦云原生底座资源部署，加速云原生体系与平台建设，完善和提升云原生服务能力，以科技服务云平台为载体，面向集团提供全面、易用、自主可控的云原生服务，提升资源交付质效，高效支撑业务敏捷创新。云平台通过标准的接入规范和部署规划，最大程度的减少其他云应用开发周期和难度，能够实现快速SaaS应用的上线交付。依托于此，国泰君安云计算团队，自研开发了云监控系统、云网流量分析、弹性文件系统、对象文件系统、文档中心、镜像站等云应用，为用户提供

5、了更加便捷的云资源交付与服务。结合公司基础架构特点，为每个云服务设立独立的业务资源模型，通过该抽象模型，能够实现多区域、异构资源池的统一纳管，从而满足鲲鹏、飞腾、海光等国产信创芯片的云资源，实现了“一云多芯”的统一管理。正是借助此架构的优越性，使用户在无感知的情况下自助申请、创建云资源。作为云平台核心的组件，该应用集权限管理、配额管理、计费和事务管理于一体，通过权限校验与配额分配，确保云资源的合理分配，实现了整个云平台内部统一、协调运转。智慧中台一云多芯、多云部署自研云应用，提升云服务质量随着越来越多的核心业务系统迁移上云，云上业务的稳定直接影响着用户体验与服务质量，从应用服务可视化、应用调用

6、追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度，针对云资源池业务分析及消费的需求越发突出。缺少云资源池上的应用服务可视化能力核心设备南北向的流量镜像采集点无法覆盖资源池内流量采集，缺乏资源池内应用服务流量数据包的全量采集手段，使得业务运行处在黑盒状态，缺少资源池内的应用服务可视化能力0101现有监控手段不能满足复杂环境中的业务运维排障要求0202缺乏零侵扰的全链路分布式追踪针对关键业务嵌入 S D K 或者插码打桩的

7、方式，对业务开发语言、框架有着严格的要求，需要消耗大量时间维护嵌入式 S D K 代码，对于边缘组件疲于应对，使得精准的业务保障成为难题。0303缺乏历史故障问题回溯分析能力关键业务系统访问出现某一时刻或单次请求故障时，因无法记录单次请求或瞬时的网络及应用请求状态及性能指标，所以不能对故障问题提供责任举证，使得业务网络依旧带病运行，存在隐患0404资源池

8、内业务动态性高，覆盖范围广，业务覆盖的资源范围可能实时动态伸缩，目前监控手段无法动态获知复杂的业务访问调用关系，无法自动呈现业务的端到端全链路流量拓扑图解决云网络的“黑盒在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制，具备网络性能分析、网络回溯、资源回收、统计报表、网络全景拓扑全链路分析能力降低可观测运维复杂度在云原生环境中建设面向云内所有系统的高度自动化的可观测性平台，为云内应用提供量身打造的全栈、全链路、高性能数据完善公司金融云的管理为云上应用

9、提供更优质的服务，提供面向业务系统在云内的自助分析能力，保障业务稳定运行，加速故障分析效率，快速定界，提升系统稳定性和运营效率在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间，实现全链路数据监控、性能分析及故障快速定位，提升系统稳定性与运营效率覆盖数据中心云基础资源层虚拟化环境虚拟化环境云原生环境云原生环境云原生应用云原生应用各资源类型宿主机、虚拟机环境容器环境，包括信创、非信创环境云原生中间件、云原生数据库等云内应用按功能区部署数据分析层云原生数据分析节点云原生数据分析节点云网观测系统观测应用观测.

10、分析监控数据分析监控数据流量数据流量数据虚拟化数据云原生数据eBPF数据云环境数据.运维场景云网络故障诊断云网络历史回溯云网络流量拓扑云网络调用链跟踪.云网络数据服务覆盖虚拟化、云原生、云中间件、云数据库等云内应用，实现对云网络的可观测能力覆盖；结合CMDB等多源数据，实现对海量数据深入挖掘和分析；依托AI中心和多平台联动，提供不同运维场景的数据服务；可以多维度、数据化、可视化展现网络中的不同指标，实现了对异常网络事件的量化功能；同时，结合历史数据，分析不同层次的运行情况从流量引取、流量采集、数据存储等多个细分环节，实现由用户自主掌控的能力，并可以对云网内不同类型的流量进行精细化的采集和管理可

11、作为云网环境大数据平台，经过全网流量的采集，通过标准数据API，企业可以自行对底层数据进行查询、业务逻辑处理、封装，自主开发数据应用针对企业内部的个性化需求，如一体化监控等，可以实现灵活的对接，按需将流量分发给不同的数据需求部门以及对应的分析工具，实现云网的统一监控满足云数据中心流量规模日益增长的需求，分析器、采集器软件可灵活横向扩展，支撑云网全景流量数据服务系统稳定运行针对精细化采集的数据流量，支持用户对其可以进行离线数据的回溯，对常见网络流量和应用特征类型进行提取，并可以进行直观的展示，完成从物理网络到虚拟网络的端到端全栈调用链追踪和诊断与公司一云多芯的异构云平台可以进行对接联动，调用不同

12、异构云平台的数据接口，自动感知各环境内租户内的业务，实现以租户为核心的网络流量分析。以租户、业务为核心精细化数据采集和控制运维排障分析统一对外接口数据可量化数据PAAS平台组件灵活扩展客户端服务端宿主机服务端客户端宿主机下钻基于云网的流量采集数据，自动生成多中心多资源池的可视化拓扑针对某个业务，进行数据下钻，分析业务的调用拓扑关系，并根据业务网络情况，进行具体的性能分析业务指标分析多中心云资源池全局视图端到端路径追踪详情基于端到端的数据链路情况，结合采集的性能指标，分析链路每一个路径的网络性能情况云资源自动学习和无侵入采集节点资源维度工作负载资源维度POD资源维度实现多云资源池流量无侵

13、入、零干扰地全量采集针对不同的云资源，自动标记端到端数据标签资源精细化管理云网分析标准化回收周期内流量数据较小的列表结合资源的使用情况，建立开发测试环境资源回收的机制，采用留指标数据，判断云主机的使用情况，并结合云网流量分析服务和云备份服务，实现资源回收的流程01 健全云网指标体系02 标准化排查流程容量指标系统流量吞吐、数据传输包数、活跃连接数可用性指标T C P 重传、HTTP异常、DNS异常时延指标建连时延、系统时延、应用时延n 通过建立不同问题的排障树，标准化分析和排查流程，加速问题排查过程n 建立云网的自动化巡检流程，系统性识别网络中潜在风险，从而对环境进行优化配置，减少故障风险

14、可以快速了解业务系统的网络状况，通过定制化的视图，结合RED指标，发现访问管理中需要加强关注的部分，降低问题定界的时间通过对网络流量的细致分析，可视化监控有助于优化网络结构和配置，提升网络性能，保证云服务的高效稳定运行云上应用关联性分析基于云门户的云监控分析服务支持对系统内某个业务组件的指标查看支持对性能指标的关联性分析。通过关联基础资源的指标，加速问题排查效率云监控服务提供了一套基于租户的网络流量可视化方案建设背景eBPF技术eBPF可实现无侵入式订阅网络流量等各种内核事件建设情况告警应用本身下游上游已完成制定应用故障排查手册,为解决应用故障提供参考和指导。1.针对生产集群现有应用，积极推广

15、链路排查方案，协助业务系统进行改造。2.针对测试环境，加快测试环境eBPF系统建设，未来将完善应用上线准则。1.积极采纳业务系统使用过程中的修改建议，提高系统易用性。2.加快云监控工具的统一入口建设，从而简化监控流程，提高管理效率。后续应用接入规划无法确定特定服务的上下游依赖服务流量是否正常无法回答应用的 DNS 请求解析是否正常；无法回答应用之间的连通性是否正确；业务应用具备微服务众多、多语言开发、多通信协议特点，观测工具繁多1234急需一种立足于容器底座，关联应用性能观测，打通端到端可观测性的解决方案。黄金指标可视化展示，直观表达系统是否正常对外服务。全局视角的应用拓补，实现系统架构感知、

16、服务依赖分析等能力。支持多种协议Trace方便根因定位。开箱即用的告警功能，支持用户多种配置方式。丰富的上下文关联元信息。使用计算能力去复制方法和知识，更高效的完成对可观测数据的处理、加工、分析。现状专家经验问题排查依赖经验的积累，无法快速复制，对初级工程师仍需长时间学习专业知识广全栈可观测性涉及到从应用调用到底层基础设施的各个环节，包括应用性能指标、分布式追踪、网络性能指标、资源变更事件、函数性能剖析等。这些数据量庞大且复杂，需要综合多个维度进行分析和关联题排查依赖经验的积累解决思路利用先进的大模型技术，对云网环境中的海量数据进行高效的处理和分析。通过引入数据特征提取等预处理机制，提升数据处

17、理的效率，从而实现更加实时的可观测性基于大模型的数据处理与分析多源异构数据的整合与融合高效的数据整合与融合框架，能够关联来自不同来源的观测数据，使得智能体可以基于大模型进行统一的分析。通过异构数据的关联算法，提升数据的分析价值零侵扰的大模型应用持续剖析能力利用 eBPF 等新兴技术，在不修改大模型应用代码、不重启大模型应用进程的情况下，实现零侵扰的大模型训练和推理过程的持续剖析能力可扩展的系统架构设计适应云网环境的不断变化。通过引入微服务架构和容器化技术，提升系统的可扩展性和灵活性，确保系统能够随着需求的变化进行平滑扩展和调整云网分析智能体LLM剖析诊断智能分析关联场景数据，包括全栈指标、调用

18、日志、指标数据等，将数据汇总给大模型进行分析和下钻，简化云网层故障异常排查的难度Otel标准化统一云网数据格式统一云网数据格式，采用opentelemetry的标准定义，对不同数据源进行合并汇总，提供统一的云网分析智能体细粒度跟踪深入剖析、诊断LLM的预训练过程，是提高大模型训练高效性和可靠性的有效手段。实时性能监控低开销高安全大模型LLM应用快速发展，但是缺乏统一的监控标准，从CUDA、开发语言（Python）等维度进行细粒度跟踪深入剖析和诊断整个模型训练过程，识别和解决训练过程中的性能瓶颈和资源争用问题，提高训练效率内核空间执行，更低的开销，降低对LLM训练的影响，更安全、更稳定的运行，避

19、免对系统造成影响实时拓实时拓扑分析扑分析自动检索云环境日常常见问题文档，基于自动检索云环境日常常见问题文档，基于NLPNLP对平台用户进行自动解答对平台用户进行自动解答提供标准化的云原生运营指南、加速业务系统上云效率提供标准化的云原生运营指南、加速业务系统上云效率基于大模型的AI云助手基于开源LLM开发框架和RAG引擎，解决了传统生成模型在信息准确性、上下文相关性等局限，实现对云环境运维流程的重新编排指引初级工程师了解并使用不同云基础资源，减少重复运维压力指引初级工程师了解并使用不同云基础资源，减少重复运维压力基于开源LLM框架的功能定制开发n定制tools工具满足运维场景根据实际运

20、维场景，定制化开发tool工具，结合大模型的能力，执行运营过程中更复杂、交互的操作n与科技服务云门户的无缝集成通过在科技服务云门户的集成，提供云环境用户实时、高效、准确的AI智能客服当前，云环境的全链路检测已经逐步从NPM向全栈主动检测，当前，还存在部分的应用使用的系统不支持eBPF能力，但是随着应用的更新换代，后续支持eBPF能力的覆盖率也会逐步上升，提供新的运维观测能力NPMNPM到全栈监控到全栈监控除了云网监控、系统层监控、云数据库等监控，还需要加强和业务监控的联动，将数据进行标准格式的处理后，提供给业务系统，和APM等其他工具，进行全链路的综合分析，实现业务系统的全景观测和可观测性分析能力的输出多维数据融合多维数据融合大模型在未来会有更多的落地场景，前期通过和云网运维结合，在智能故障分析定位上可以加速定位提的定界。后续也会从运维、运营的场景出发，通过AI的能力来提高取代传统人工事务性的工作，提升运营效率结合结合AIAI能力的落地能力的落地多个智能体的人机协同是一个趋势，单个领域的智能体需要更深入的实现智能体的能力，并在上层协同系统下，和其他智能体共同提供业务支撑，加快运维人员处理运维、运营任务的效率，解决更复杂的实际业务场景。多智能体协同多智能体协同

加载中~