新时代我国网络AI大模型发展与挑战分析
摘 要 本文阐述随作为 6G 的研究热点,网络与 AI 被 ITU-R 正式提出作为 6G 的 6 大场景之一。其一直以来受到学术和工业界的广泛关注,6GANA 也提出了网络 AI 的理念并展开了深入的研究。而随着大模型的兴起以及其在各行业表现出来的强大潜力,可以预见到大模型也将在 6G 网络中扮演重要的角色,相关的研究也将逐渐进入高发期。在新时代下,本文将首先对网络大模型(NetGPT)给出明确的定义,随后从基础理论、场景需求、网络架构、部署管控、数据治理等方面系统阐述 NetGPT 的发展中10 大重点研究问题与挑战,分析潜在的研究路线,希望能够为后续的 NetGPT 的相关工作指引方向。
关键词 新时代 ;网络AI;大模型;发展;挑战
一. 网络大模型的背景
ITU-R WP5D 第 44 次会议正式通过了《IMT 面向 2030 及未来发展的框架和总体目标建议书》, 作为 6G 研究的一个重要的里程碑,代表了全球的 6G 愿景共识,其中 AI 与通信融合被作为 6 大关键场景之一,与 6GANA 提出的 Network AI 理念不谋而合。随着大模型的颠覆性发展, AI 在自然语言处理、计算机视觉、语音识别等领域的任务处理能力得到了极大的突破。特别是大语言模型,如 ChatGPT,能够准确识别并理解用户的意图,为用户提供问题,生成文本等,并在结合多模态技术后不断向更多领域拓展。可以预计,大模型将会成为 AI 通信融合的关键组成部分。在提高网络中 AI 的通用性和多任务处理能力等方面发挥重要作用。然而我们需要意识到,大模型与 AI 在应用上是有着很大不同的。在以往 AI 模型的使用上,是通过收集大量的数据然后从头训练模型,因此需要关注是如何针对具体任务设计模型结构、网络如何收集需要的数据,网络如何为 AI 模型的训练推理提供算力和算法支撑等。
大模型在应用上,是以预训练基础模型为底座,通过各种策略,如 prompt,fine-tune 以及向量库等方式来适配各类具体任务。另外,大模型意图理解和涌现能力,也给大模型的应用带来了更多的可能性,例如可以实现基于意图的编排,调用各种工具实现具体任务等。同时,大模型的巨大参数量和算力需求,也为其在网络中的应用带来了新的挑战。为此,我们需要重新梳理大模型和网络结合这个领域中的关键问题,为后续的研究指明方向。
二. 网络大模型的定义
大模型将在运维、执行、验证等方面为移动网络服务。通过整合通信知识,大模型可以帮助检测故障和生成解决方案。随着网络服务的多样性和复杂性,大模型可以用来编排和调度任务流程,还可以进行性能优化、环境预测、资源分配等。通过出色的生成能力,大型模型有望在验证阶段发挥重要作用,如室外复杂环境的通道生成、高铁场景模拟等。
因此,我们将无线通信网络中使用的大模型定义为网络大模型(NetGPT)。
由于无线通信网络包含 RAN/CN/OAM 这些不同的技术域,他们在功能特性、数据结构、以及性能需求上都有着明显的区别。
基础性指的是能够通过 few-shot 甚至 zero-shot就很好的适配到下游任务上,这一点 NetGPT-L0/1 都要具备,特别是 L1,要能够作为 NetGPT- L2 的基础模型,通过各种策略来快速适配到新的场景中去,不再需要从头开始训练 L2。而在模型规模上,NetGPT-L0/1 的参数量要满足大模型的基准门限,目前业界普遍的看法是,产生智能涌现的最少参数量在 70 亿。NetGPT-L2 的参数量可以小很多,方便其部署在网络边缘和端侧。
三. AI大模型发展的基础问题
3.1 NETGPT 场景和需求问题
NetGPT 的需求是否真实存在,需求程度如何,需要通过研究过程逐步去伪存真,为后续的网络设计和 NetGPT 发展提供必要依据。另外,在 NetGPT 需求和场景研究中,需要结合对未来技术趋势的分析,需求和场景研究可以一定程度适度超前当前科技水平。单从 IT 视角进而 CT 视角看 GPT 技术,从 IT 视角看,GPT 既是一种 AI 大模型,也是超级AI 大应用;从 CT 视角看,GPT 既可以是一种辅助工作的赋能手段,也可是一种创新设计新范式。
而就 6G 网络发展而言,从“需求搜集”到“系统设计“,再到”规范标准“,“研发测试”,“规划,建设,运维,管理,优化,营销”等全生命周期的各个环节,GPT 类技术都可以在其中
发挥重要作用,而从一开始最具价值的毫无疑问是 GPT 赋能网络,即 NetGPT。而无线网络边缘单设备/终端相对于云较为受限的计算能力,决定了 NetGPT 并不能像传统 AI 那样对网络中的功能和算法进行简单替换,而需要重新设计,包括适配无线网络的 NetGPT 算法,以及原生支持NetLM 应用的无线网络架构。
3.2 NETGPT 的基础理论问题
在未来无线网络全面智能化时代,通信、计算、数据、AI 的融合是不可避免的趋势,而构建NetGPT 是实现这一目标的关键。然而,要实现 NetGPT 的构建,需要解决许多基础理论问题。
作为最具代表性的基础模型,大型语言模型 LLM 也被很多研究者作为网络模型的底座,通过微调或者提示等方式来解决网络任务。然而,通信领域与自然语言处理领域的根本差异导致了 NetGPT 与大型语言模型在理论上的显著差异。
3.3 NETGPT 的极致性能要求问题
通过使用深度学习、强化学习等先进的人工智能技术,大模型可以从大量移动网络数据中提取有用信息,并实现智能化的决策和控制,广泛应用于移动网络的信号处理、传输控制、无线资源分配、干扰管理等多个方面,为智能物联网、智慧医疗、智能交通等领域提供有力支撑。
为了实现这些应用,模型必须实时高效,能够快速处理输入并进行决策;模型必须准确可靠,尽量避免错误决策造成的网络问题;模型必须稳定可用,保障网络运行和服务质量不受模型故障影响;模型必须具有可扩展性,能够适应不同场景和不同用户的需求。
无线通信网络的应用场景常常涉及到各种实时任务,如自动驾驶、远程医疗、智能制造等。这些场景对网络的实时性要求极高,即使微小的延迟也可能导致严重的后果。这就需要大模型参与到网络业务的处理时,能够在极短的时间内进行决策和执行,以应对快速变化的网络环境。
例如基站上的资源调度的时间粒度是 0.5~1ms。然而大模型的复杂计算过程和大规模参数会带来推理的延迟,很难直接应用到网络的底层逻辑上。我们需要为NetGPT 开发高效的模型推理和执行方法,甚至在模型架构上进行重新设计和简化,从而提升其推理效率。进一步地,可以通过采用高效的硬件加速、进行软件的加速优化、压缩优化模型算法和模型结构等方法来形成芯片、框架、系统的整体优化。
3.4 NETGPT 间的协同问题
大模型是从弱人工智能向通用人工智能的突破性探索,能够用来解决了传统 AI 应用碎片化问题,未来多模态只会让大模型越来越大,但性能与能耗提升不成比例的效率问题限制了规模的继续扩张。相较大模型,小模型专注在特定场景,相对而言参数较少、结构简单、精度低、计算量较少,适用于处理规模较小、简单的数据集,可以快速迭代,便于快速试验的一种模型结构。
因此让网络大小模型的协同进化,各司其职可能是更适合的方式,大模型向边、端的小模型输出模型能力,小模型在真实场景收集的增量数据,负责实际的推理与执行,小模型让大模型有再进化的元素;不需要重复训练相似的大模型,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化,形成有机循环的智能体系。
3.5 NETGPT 的原生分布式部署问题
随着大模型越来越大,从几百亿到几千亿到现在 GPT4 的万亿参数,其对计算和存储成本的消耗也越来越大。当我们要将这样的庞然大物部署到网络内时,需要考虑可能出现的分布式部署方式,例如部署在网络边缘提供即时服务,或者部署在基站和终端来增强空口特性等。那么如何将 NetGPT 成功地部署到分布式环境中,以实现模型性能的最大化和资源利用的最优化,将面临着诸多挑战。
(1)NetGPT 的分布式拆分。
(2)NetGPT 的分布式训练。
(3)高效的节点间通信机制。
针对以上问题,需要深入研究相关的理论和技术,探索创新性的解决方案,结合网络自身的拓扑结构,建立高效的分布式部署方案。例如,可以采用分布式一致性算法来保证模型训练的一致性;通过动态负载均衡策略来优化资源的利用效率;利用高效的通信和同步技术来提高模型的训练效率;同时,需要研发安全的模型训练和使用策略,以保护用户的数据安全和隐私权益。
3.6 NETGPT 的网络架构设计问题
大模型主要部署在网络,云端的智算中心,利用集中的算力对数据进行预处理,AI 模型训练和验证等,会对网络的传输带宽带、性能指标等带来压力。而目前终端侧的智能化则由于算力,算法模型,数据等不足,还需要较大的提升。
如何实现在架构层面实现通信连接、计算、数据和 AI 算法模型的深度融合,充分利用网络中分布式的算力和数据,引入多节点间以及终端与网络间协同机制,实现分布与集中处理的融合,提升了数据处理、决策推理和资源利用的效率。同时基于“大规模预训练﹢微调”的范式,使 NetGPT 做到相对标准化,成为网络 AI 基础设施与底座的能力,赋能网络内各个场景,降低网络 AI 技术应用于下游场景的成本,NetGPT 将带来以下网络架构的影响。
(1)网络服务的优化:在网络的运营层基于 NetGPT 解释语义信息的能力,未来的无线网络可以为每个单独的应用程序生成一个专有网络,从业务等角度提供相应的服务逻辑、网络逻辑和网络资源。例如利用大模型在自然语言上的强大能力可用于提升智能客服、智能化经营、智能营销等运营服务功能,大模型在自然语言上的成功,启示了在语音、视觉等多模态数据上的扩展空间,赋能行业数字化,改进信息通信服务能力。
(2)网络的能力更新:由于网络中不同的技术域场景在功能特性、数据结构、以及性能需求上都有着明显的区别,未来的网络需要持基础大模型,NetGPT ,第三方大模型的原生部署支能力。此外由于参数数量巨大,大模型的知识更新带来巨大的计算开销,需要在考虑 NetGPT 的增量训练能力,在线学习演进的能力,实现在网络领域内对模型数据进行有效的变更,模型的“即时”更新。例如目前随着大模型 及其相关技术的出现和普及,可以在智能运维领域智能运维相关问题的快速问答以及运维人员确认后的快速执行等场景。大模型与智能运维 AIOps 可以协同助力运维人员快速识别系统故障类型、高效提供故障处置策略并生成自动化脚本实现故障自愈。由于网络运维需要在已有大模型自然语言理解能力上增强丰富的运维能力,故障的解决方案或修复策略知识库,不能直接已有大模型,用来辅助人工,对实时性要求不严格,大模型可以作为一种网络内部功存在,通信网络可以通过网络内部接口进行交互。
3.7 NETGPT 的安全隐私问题
大模型作为预训练的基础模型,其所承担的智能业务范围、数量和种类是以前的 AI 模型所不能比拟的。当前基于大模型的应用还处于发展阶段,隐私保护政策由服务商自行制定,用户不得不忍受宽松的隐私条件。未来大模型将成为网络设备和应用的基础功能,为千行百业带来普惠智能,用户(尤其是掌握敏感信息的用户)则会更加关注无处不在的隐私威胁,彼时数据安全问题将成为限制大模型发展的枷锁。正因为如此,其所面临的数据和模型安全问题也更加严峻,特别是为基础网络设施服务的 NetGPT,安全更是重中之重。
另一方面,用户在使用 NetGPT的过程中,会暴露自身的隐私和敏感数据。因为用户必须上传自己的数据或者提示词(Prompt)给大模型提供方,才能通过计算获得预期的推理(Inference)结果,这个过程中用户隐私面临来自服务商和网络攻击者的多种威胁。
目前全球范围内发生了多起因使用ChatGPT 导致的数据泄露事件,比较著名的有发生在 2023 年 3 月的“三星芯片数据泄露“事件,此后 Apple 禁止内部员工使用 ChatGPT。美国政府与 OpanAI 签订条款禁止其在服务期间收集政府数据,此外多国监管机构亦先后宣布将关注大模型带来的数据安全风险。
即便服务商不会收集用户数据,恶意攻击者也会通过诸如数据偷取攻击(Prompt-stealing attack)等手段非法窃取用户数据。当前大模型还缺少执行标准以及安全约束,当我们谈到 NetGPT 时,尤其是面对未来的普惠智能时代,不可避免地要有针对性地设计数据安全的原则和规范。
3.8 NETGPT 的数据服务问题
(1)高效处理大量的异构数据。
NetGPT 需要处理多种类型的数据,有的是空口的数据,有的是 RAN 侧的调度数据或者资源管理数据,有的是更高层的统计数据。这些数据的特征维度差异非常大,甚至有的是结构化数据,有的是非结构化数据。有的数据自于不同的源,但是表征相似的内容,比如对于某个用户的业务量,可以来自于端侧的业务统计,网络在调度时授权的空口流量,或者是管理面上利用话统得到的统计流量等,因此网络需要保证所有数据的一致性和正确性。
(2)大规模数据的分布式部署和实时供给。
网络中的核心网设备、基站以及终端设备上都会存储各自的数据,网络需要为这些碎片化的数据建立一套统一的管理体系,在进行 NetGPT 训练和推理是能够快速便捷的获取到相应的数据。特别是在一些对实时性能要求高的场景下,如MAC 的资源调度,空口的波束赋形等,对于模型的更新效率和推理时延都有着 QoS 要求,数据供给作为关键一环将直接影响到最后的性能表现。另外,NetGPT 是会出现大量并发运行的,这也对网络服务提出了高并发的要求。
(3)网络知识图谱的构建。
为了提供更加可靠的服务,一种有效的方案是让 NetGPT 与知识图谱结合。知识图谱可以表示和生成思维链,通过结构化更好的思维链提升大模型的推理能力,并且对于大模型的回答进行关联分析,减少大模型的幻觉现象。当然,目前知识图谱也还面临着知识的多模态表示、深度知识抽取等挑战,有待进一步研究解决。
3.9 NETGPT 的评判体系与方法问题
由于网络领域对确定性,可靠性,正确性高度要求,如何对 NetGPT 进行全面、客观的评判成为了一个亟待解决的问题,对 NetGPT 的发展至关重要。
一方面通过对 NetGPT 性能的评测,可以为 NetGPT 优化和改进提供有力依据,提高其应用效果和商业价值。
另一方面 NetGPT 评测可以作为基准,了解不同厂商提供的 NetGPT 的性能和适用性,促进网络与大模型技术的发展和应用。此外,NetGPT 评测还可以促进不同领域研究者的技术交流和合作,共同推动网络人工智能技术的发展。为了保证评测技术方案的整体实用性、均衡性和系统性,可以包含指标,方法,手段几个方面的评判维度:
(1)网络场景领域特征评判。
现有评判方法如准确率 Accuracy(反映模型正确预测样本的比例),F1 Score(综合考察精确率(Precision)和召回率(Recall),兼顾模型在正类样本上的预测准确性和覆盖率,EM (Exact Match,模型生成的答案与参考答案是否完全相同),BLEU 值(Bilingual Evaluation Understudy,用于衡量语言模型生成文本与参考文本之间的相似度的预测准确性和覆盖率)等是评估大模型性能的重要指标。
(2)NetGPT 场景泛化性评判:虽然某些语言大模型在很多任务上已经达到或超过了人类的水平,但是通信区别与语言领域有所区别,相对比较封闭,能公开获取的标注数据更少,如在智能化运维场景中,通过学习中错误数据来驱动智能化运维任务的模型,收集到足够的运行异常,运行错误数据比较困难,很难获取到覆盖实践中可能遇到的各种用户和场景。如何针对网络中的低频任务,评测者需要关注模型在使用少量训练数据时的表现,考虑不同网络场景之间的差异性和复杂性,使用更广泛的测试集和跨场景领域的评判任务,以便更好地评判模型在不同场景下的泛化能力。
(3)NetGPT 安全性评判:网络攻击者可能会利用特定数据来攻击 NetGPT,或者破坏模型的性能。对抗性攻击是一种常见的攻击类型,通过向网络模型输入有意制造的数据或恶意样本来欺骗模型或破坏模型的性能。面对以上问题,需要考虑如何防范各种攻击模型,并设计相应任务来评估 NetGPT 安全性。
为了评判方法的合理性,需要设计覆盖全周期、全要素的工程化,包括训练推理,要素权重、综合目标等评判方法。在具体的评价方法上,
此外,还需要提出适用不同阶段、精准和效率兼顾的评判手段,如高精度网络仿真平台、数字孪生网络、网管统计等。
3.10 NETGPT 的全生命周期管控和编排问题
NetGPT 的训练所需数据规模更大、模型复杂度更高、算力开销更多,这对各场景下NetGPT 的生命周期管控与编排提出了更高要求。首先,NetGPT 的全生命周期管理将面临模型的拆分与聚合、模型的更新与维护,以及 NetGPT 知识产权保护等新挑战。
针对以上问题,首先,需要结合 NetGPT 与传统模型的特征与区别,充分识别 NetGPT 的生命周期可能包含的步骤;其次,需要研究高效的分布式协同管理机制,降低模型协同带来的信令开销;同时,需要考虑大模型全生命周期的安全性问题,保障数据、模型、知识等多个维度安全和隐私。
四. 总结与展望
NetGPT 是移动网络和大模型间的双向融合趋势,在这份白皮书中,我们深入探讨了 NetGPT的十大基础问题,包括基础理论、场景需求、网络架构、部署管控、数据治理等多个方面。并进一步分析潜在的研究路线,为后续的 6GNetGPT 的相关工作指引方向。同时我们必须认识到,NetGPT 的进一步发展需要以实质性的工作为基础,包括数据收集和处理、模型研发和优化,以及验证和测试等方面。
首先 NetGPT 需要大规模、多样性和高质量的数据来训练和验证,应重视数据安全和隐私保护,同时鼓励数据共享和开放,以推动模型研发的普惠性和公平性,此外,应重视从多样化的应用场景中提取有价值的特征和知识,以丰富模型的训练数据。其次我们呼吁继续深入研究和优化NetGPT 的体系架构和算法,以提高其性能、效率和可解释性,应重视跨学科的交流和合作,借鉴和发展计算科学、数学、物理等领域的最新成果,推动 NetGPT 的持续创新。
最后我们需要建立和完善 NetGPT 的评估指标和方法,以确保其性能和可靠性。应重视开展大规模的实验验证,尤其是在真实的网络环境中进行长期的性能测试和鲁棒性验证。此外,我们也应鼓励开展跨领域的合作,从应用场景中寻找验证的机会,以推动 NetGPT 在实际问题中的应用。
NetGPT 的进一步发展需要我们共同努力,开展实质性的工作。无论是数据、模型还是验证,都需要我们持续的投入和深入的研究。此外,我们还需要加强与其他领域的合作与交流,如人工智能、云计算等,共同推动 NetGPT 的发展和应用。让我们一起面对挑战,把握机会,共同推动NetGPT 的发展和应用。
参考文献:
[1]夏以柠.生成式人工智能技术进展及其在网络领域的应用与展望[J].汽车技术,2023(09):43-48.
[2]马琨.AI 大模型开启智能汽车新时代[J].汽车纵横,2023(07):79-81.
[3 网络AI 大模型发展深度分析。ttp://www.360doc.com/content/24/0328/12/29585900_1118615366.shtml.