中国电信集团有限公司高级解决方案专家 罗吉


中国电信集团有限公司高级解决方案专家 罗吉(张哈斯巴根/摄)


中国电信大模型建设的实践与思考


罗吉(中国电信集团有限公司高级解决方案专家):尊敬的各位领导,各位专家,很高兴今天能代表中国电信,来给大家汇报中国电信大模型在建设的实践和思考。

我不知道大家是否了解,中国电信早在2021年10开始训练我们第一个视觉大模型,当时我们为了解决城市治理的痛点问题,我们开始训练第一个视觉大模型,同时我们研发了大规模的算力网络调度平台和数据要素的服务平台,为什么要研究这两个平台,第一,我们需要把我们电信体系内省份公司各个小的算力资源池统一调度起来形成一个算力合力,加速大模型的训练。

第二,需要把体系内各自分子公司的数据汇聚起来形成庞大的数据集给大模型进行一个支撑。

仅用了一年的时间我们发布了百亿级城市治理的模型,城市治理的业务提升了10%个百分点,去年10月份中国电信作为央企第一个发布了语义大模型,当时我们排第七名,仅过了四个月我们就发布了千亿级语义大模型以及多模态大模型,刚刚过去十一期间为了庆祝祖国母亲的生日我们发布了央企第一个千亿级的开源星辰大模型,今年二月份我们成为首家央企网信办注册大模型,未来中国电信将会发布万亿级大模型并且进行开源。现在我们的星辰大模型分为四个系列语义大模型、语音大模型、视觉大模型和多模态大模型,我们基于四个大模型来实现整个AI大模型应用的落地。

发布大模型其实跟算力有非常密切的关系,中国电信架构了2+3+7+M+N的算力网络,我们有五个万卡的资源池分布在内蒙古自治区、贵州等等,同时有7个千卡级的资源车在江苏湖北等地,同时我们还有31个省市和地市级分子的资源池,中国电信也是运营商唯一一个具备海外资源池的运营商,我们通过大的算力网络支撑算力资源统一成一个算力,使它进行统一的调度,客户可以无感进行算力使用。

这就是我们息壤能力,除了对GPU算力的调度,息壤还可以对通用算力、智能算力以及超算进行统一的纳管,同时息壤不但可以管我们电信体系内的相关的算力能力,我们还接入了阿里云、百度云等等39家合作伙伴的网络的GPU的调度能力,我们把合作伙伴的计算资源和我们的计算资源形成了一个统一大的计算池,保证我们的模型有足够的算力。

在算力上面我们还有数据中台,我们的数据中台跟其他的中台有一个不同点,我们的数据中台是融入了AI的能力,现在大家最火的一些应用抖音等等,数据时代已经不是传统的结构化数据,我们有很多的音视频数据,我们融入了AI的能力可以解析音、视、图、文形成一整套的数据资源池,我们可以挖掘结构化和非结构化数据全域的数据资产,形成新的一个数据的支撑。

基于这个数据资产,我们也构建了我们的数据集管理平台,在我们数据中台进行数据的汇总和数据治理的同时我们也可以进行数据的标注,标注任务的分发等等形成AI相关整个的数据集,最终对数据集进行评估训练我们的模型。

这是我们基于数据集管理创建的灵泽数据要素交易平台,我们要把算力形成一个统一的交易和调度,同时我们训练集需要把各地不同的相关训练数据做成统一大的池子,这样我们才能训练好大模型。我们的灵泽就是干这个,可以把数据进行汇总,然后注册、确权形成数据资产,然后跟我们的分子公司进行分享构建我们相关的大模型。

这个是星海AI平台,我们的星海AI平台除了可以帮助大家构建数据集、训练模型、评估模型、发布模型等等,我们还将电信内部的各种的场景下积累的模型形成了我们的模型仓库,把这些仓库里面的模型形成SaaS的服务,未来我们需要人脸服务、姿态的服务我们都可以对它进行SaaS化发布,这样可以在体系内形成一个快速的应用。这是我们星辰大模型,除了四个基座大模型,星辰大模型现在已经训练出32个行业大模型,包括数字治理、数字民生、数字经济等等各种场景,服务了7600多家客户,大家可以在我们的星辰大模型平台上进行使用。

因为我们电信是有很多大模型的场景,我们也把我们的大模型应用到云端的应用,比如说AI的网盘、AI的客服,提升电信内部的新质生产力。

这是我们整个交通大模型的规划,我们要致力于做好治理好军师、业务好伙伴、运营好助手、出行好客服,四个场景下我们建立交通大模型。

目前我们基于以前以交通行业包括民航行业积累的1亿条雷达数据、1000万字的管理文件、580万字的政策法律法规,120万的标注道路图像,1000小时的道路监控视频,我们构建了交通大模型,目前已经服务了1600家的交通管理部门以及300家的交通运营部门以及亿万交通运行的群众。

中国电信我们不光是提供我们的平台,我们一直致力于帮在座的客户可以构建出我们自己的大模型以及构建我们自己的应用场景的大模型应用落地,我们基于给客户做的应用的落地我们实现了三阶八步的方法论,通过这个方法论我们希望通过中国电信的能力快速帮我们客户实现大模型的应用落地,真正帮助到客户实现他们的新质生产力。

其实大模型在做的时候尤其是大模型的应用落地重点其实都在后面,前面说的算力和训练平台都是一个通用的东西,最终真正落地需要我们的业务专家和开发人员深入到业务场景里通过我们的方法论帮助客户做应用落地,真正实现大模型的应用。

这个是我们某个央企的例子,这个央企是我们建了一个数据中心,整个项目建了一个数据中心以及相关大模型的基础平台,可以看到数据中心总的平台是用了息壤调度平台,这个央企我们除了把央企本部的算力以及二三级子公司的算力进行统一的纳管,我们将天翼云上的大的算力资源池进行了统一的角度,通过我们的息壤平台,这样能够为我们客户提供一个超大规模和统一调度的算力资源池,这也是我们息壤在私有化的场景下能做到公私结合起来的算力资源池。

除了算力资源池我们也部署了MaaS的生态服务,同时基于这些平台我们构建了行业专属大模型,包括我们为客户提供了二次训练服务以及数据集构建的服务以及问答知识库的构建等等,同时为它规划了四类大模型的使用场景,支撑上层大模型的应用。

这个是我们在无人机大模型的应用,在无人机上低空经济这一块中国电信是先行的队伍,无人机重点解决的问题是进行无时无刻5G通讯网络的畅通实时把数据传输过来,中国电信基于5G的基站做了低空经济的先行者的地位,AI的场景我们通过SaaS平台的AI的服务以及算法把无人机进行端侧的物体识别包括公路场景识别加载在无人机实现无人机自动的调控和自动运营。

这一块我们目前这个项目是某市5G无人机的低空共享平台,我们已经实现了372架无人机机群的调度,通过它针对30个部门不同的需求提出了无人机管控的平台。

最后我也在这儿,代表中国电信希望跟民航一起助力民航共赢未来,谢谢大家!


中国民航报社 版权所有 京ICP备05024158
如有意见和建议,请惠赐E-mail至 news@caacnews.com.cn
./t20241009_1381878_sj.html