第二十二届民航信息化发展论坛（IFCA）

安恒信息高级副总裁、安恒研究院院长王欣（张哈斯巴根/摄）

生成式人工智能之于安全行业的应用探索

王欣（安恒信息高级副总裁、安恒研究院院长）：各位领导上午好，我是来自安恒信息的王欣，今天也非常荣幸参与交流本次的论坛，客观来讲我也不是民航人，但是我今天也是第一次来到我们论坛，我整体的感受感觉到非常的亲切。

第一个因为我本身我们公司一直在给民航相关的单位是非常深入的合作伙伴，过去我深度参与了民航项目的相关信息安全的实施。

第二个方面本身我也是经常有坐飞机各种出差，在出差过程中我经常会选择飞机的原因是感受到飞机有非常强的安全可靠高效、舒适，这个对于我们安恒也是一样的，我们一直致力于安全可靠高效，为我们客户提供安全可靠高效的服务。

我今天汇报的主题是围绕生成式人工智能之于网络安全这一块的实践，大家知道人工智能发展了这么多年，到今天为止过去两三年的时间人工智能已经破圈了，大家都会去使用人工智能，整体这一块技术发展在过去两三年特别的迅猛。今年在两会里面多次提到了人工智能，首次提到了人工智能+，所以我们为什么这两年不断在思考人工智能，取决于2018年或者ChatGPT出来的时候，ChatGPT不是一蹴而就的发展，从萌芽期到探索期到爆发期经历了多个阶段。整体来说2023年我们进入了人工智能技术的爆发期，我们可以看到无论是在国内还是国外，大量的行业、大量的企业，包括各类的科研院所都在研究研发自己的大模型，去年2023年是一个大模型技术的爆发年。

整体我们来看，我们在去年所有的通用大模型我们更多是在追赶和赶超的过程，其实我们过去比较少思考大模型真正之于我们的业务可以带来什么样的帮助，我客观看到在今年开始逐步有很多的行业有一些领先的创新的应用出来，我认为从今年开始一直往下我们可能更多越来越面向一些垂直行业，涌现出一大批的大模型就职于各种业务场景典型的成果。

所以我们回归到另外一个话题看这个问题，人工智能本身是一个工具，它是一种技术，但是我们核心要把人工智能解决什么问题，核心解决的是业务问题，前面几年大家一直在建设大模型，在实践大模型，在研发大模型，我们出现了行业内数百个数千个大模型，最终我们要回归大模型对于我们的各个业务各个领域来说到底能提供什么价值。

AI针对与各个行业来说现在已经影响到了每一个行业、每一个个体，我们逐步看到包括AI+制造、AI+传媒，包括今天我们AI+民航各类的业务，不断在做各种的探索，从第一性原理来看这个问题，AI+各类的行业到底带来哪些价值？这个我想回归到我本身所处的行业来看这个问题，人工智能作为一个工具从痛点出发回归到价值本质，安全行业过去存在什么样的问题呢？我举了一个安全天平的例子，我们在做安全业务，过去很多时候会感觉是一个矛盾的问题，我们很多时候希望安全是优先的，安全是第一的，但是我们往往又希望业务是优先的我们在考虑很多技术态的时候我们希望不要去做漏报，但是我们又不希望有太多的误报我们一直在天平的两侧摇摆。

本质再来看，过去我们做了很多的安全产品我们希望解决客户问题的时候我们发现其实产品不能完成最后一公里的闭环，这个时候我们通过各类的服务专家在做投入。但是我们发现产品+服务专家是不是一定解决了相关问题呢？从我们的实践来看不是，因为产品如果在相关的交付存在一定的差距，靠人需要多少人，需要什么专业的人，在这里面存在过去一公里的问题，原来的产品和服务为客户提供最终价值的时候还有一些鸿沟，往往没有达到我们的预期。

生成式人工智能是否是当前的一个颠覆掉过去的问题解决掉过去问题的稻草？从我们过去把AI作为公司的一个一级战略之前我们其实就想清楚了这个事情，本身人工智能属于一个技术，但是它本身技术的逻辑是一个拟人化的许可，拟人化的思维拟人化的方式，我们整体来看大模型核心与传统的模型有几个更为突出的点：第一个它有更强理解指令能力，一方面更能读懂人的语言，本身模型更理解人的语言，更理解物理世界。

第二个方面它是一个机器语言有更强跟机器对话的能力，它有更强的理解例子的能力，通过数据的训练起到了泛化的能力有更强的举一反三的能力，尤其是在安全行业我们可以看到很多的威胁是相对未知，我们过去更多时候之内通过已知去发现已知，通过大模型的泛化能力是否有更强的通过已知发现未知的威胁。

第三个，它有更强的思维链的能力，像人一样做相关的思考，很多安全的问题或者其它行业的业务本身问题的本质是一个复杂的问题，人去思考复杂问题的时候也是将复杂问题拆成多个简单问题进行逐一思考，大模型的思维链能力其实在这个点上带来了一些颠覆式的价值。

第四个，它是快速成长学习的能力，包括安全行业也是一样的我们要培养很多的业务专家安全专家，其实在知识的经验传递的时候是有非常明显的知识传递的衰减，大模型本身承载了知识传递衰减过程中很好的桥梁，我们把安全专家的经验给到了大模型，其实大模型赋能相关的业务的时候整个经验知识的传递衰减是不大的，某种层面上它的复制性非常强。

从这里来看生成式AI是可以很好填补到这里面鸿沟，向左的时候其实对于安全产品各类的业务系统来说可以提供原来产品和系统相关的能力，向右作为人辅助的助手的时候可以提高人员的工作的效率，这是我认为人工智能在安全行业来说有非常大的价值。

所以我们公司从2023年年初的时候开始研发自己的垂域大模型，现在业界有很多的通用大模型，到垂域的知识能力还有限，本身大模型的驱动是基于数据和知识的驱动，尤其是围绕细分行业相关的数据存在整个行业扎根非常多年的企业的私有数据，很多的通用模型并不能很好解决这个问题，我们也开始研发自己的大模型，去年8月份首次推出。

我们考虑整个大模型，更多我们理解为是一个业务专家，它有人的脑袋，也有人对话的能力，在安全行业来说我们更希望它是像工程师一样帮助我们完成各种问题，我们在大模型的基础上实现了AI智能体的底座这样跟我们的上层系统融合打造智能化的安全体系。

新的一个技术出来之后不是去解决新的问题，也不是重新去起一个新的安全架构，而是把新技术如何融入到原有的安全体系里面，新的一个技术人工智能不是求新也不是成为一个新的孤立的烟囱，而是跟原有的安全痛点结合，这才是王道。

今天我在后面的篇章里面不会讲太多针对技术体系框架的东西，我汇报一下在过去将近两年左右的时间针对AI+人工智能做了什么，对于现在的安全行业来说会有哪些业务上的影响会给客户带来哪些增量的价值。

第一个，我们做的是AI赋能安全运营，大家知道安全运营过去一直存在大量的问题，我们部署了很多的网络探针节点，捕获了很多的数据，这几年我们更加重视安全我们部署探针节点越来越多，采集到数据越来越多，第二个我们看到整个互联网的攻击态势面向趋向于政府化、集团军的作战，也有很多的对手从原来以自己用工具的方式，现在借助了各类智能化的工具，所以我们可以看到整个互联网攻击用到自动化的攻击手段越来越多，所以我们要研判的告警越来越多，我们发生的安全事件越来越多，这么多的安全事件过去比较难完全消化掉，无论在国内国外我们都面临同样的问题。包括服务的客户现场每一天的安全告警量是在数百万左右的规模，这么大的规模，我做一个对比。

一个人一天能研判的安全事件是1000个左右，如果一个客户有100万的告警需要都消化完需要1000个左右安全工程师，过去存在着有了大量的告警，这些告警有一些真正需要发现的威胁有没有及时被处置掉。

所以我们通过大模型的方式让大模型类似于人一样的工作方式对告警进行研判，对告警进行分类，有一些直接判断为是一个误报行为，有一些是明确的攻击行为我们分析它的攻击阶段，有的已经攻击成功我们需要第一时间处置，这个处置有可能是人触发也可以是大模型去调用工具触发。过去客户一天有100万的告警通过大模型的赋能，通过它去做降噪和研判和处置，人真正需要做的告警就几百个到上千个左右。

第二个围绕安全运营未知威胁的发现，我们今年8月份参加了全球最顶级的会议发表了针对与大模型针对威胁的成果。这个是过去我们通过具体实践案例取得了一些成果，不做进一步的阐述。

第二块是数据安全，数据安全我们看到围绕着数据以及数据战略这一块，我国针对数据安全的问题也是越来越凸显，数据安全过去最需要做的数据的分类分级，数据如果没有做好分类分级，后面数据的流传管控都是存在问题的。我们其实在过去数据分类分级这项工作是数据安全的开端，但是过去的数据分类分级一直存在一些问题，我不详细讲每一个痛点，我通过两个例子来讲，数据的分类分级针对结构化数据里面分析它是属于什么类型什么级别。

比如说这个例子我们可以理解字段名huji-address，其实我们可以理解它是户籍地址，但是我们在很多时候遇到的是类似于这样的数据案例，比如说SQF、SF等等，其实我们看无论是机器或者是我们在座的现场的各位领导，针对这些字段名我们能不能推测出它是属于什么样的含义，其实靠人去推测是非常难的。让机器在没有先前经验的情况下也是非常难的。

但是针对人工智能它会怎么做，这是一个表，表里面有一个不同的字段，不同的字段在同一个语境下，比如说SQR本身推测完之后第一列是大模型的推测行为，它推测完SQR在这个语境下是申请人的意思，结合其它的字段做了一个推理的分析，大模型在这个点上有方法强的推理能力和性能，过去我们看到原来人在做这个工作一天只能处理1000多个字段，现在我们很多的客户现场字段数是数十万到上百万的规模，过去我们需要大量的人力，如果用工具可能表现不好，通过现在的方式可以非常高效而且高质量完成相关的任务，过去我们在具体很多的项目上得到了实践。之前我们在深圳的项目上我们过去传统工程师评估了项目需要600人天完成交付，我们后面通过大模型+人工的方式进行交付，实际只通过了20人天就完成了相关的交付，整体的效率提升非常明显，而且如果我们的字段数越多，整个的边际成本收敛会更加明显，字段数越多需要投入的人越多，对于机器来说字段数增加更多对于客户来说承担的成本更少，不会增加特别多。

后面一个例子是数据防泄漏，现在企业里面有很多的终端数据，对于企业里面都是很多的商业秘密，这些商业秘密过去我们尝试着通过终端安全管控系统进行管控，比如说数据防泄漏，我们过去电脑里面有很多的方案、文档、报价材料、各类的信息，这类信息我们希望通过传统的工程数据它到底是属于哪一类信息，在外发的过程中有没有把高敏感的数据发出去。这个时候其实过去的传统工程通过一些文件格式、文件编码、关键字、字典等等多种方式进行组合，然后去发现里面到底是属于哪一个文档。其实不同的客户、不同的行业、不同的场景下，不同的数据类型下整个识别是有巨大的差异。大模型其实更多是像人一样借助人的阅读逻辑关联上下文推理分析它应该属于什么文档。

第一个例子是大模型分析完之后推测出来这是一个员工的工资表，通过员工的工资表定义为是四级的高敏感级别，第二个推测完这份文档，通过内容的分析里面有很多的软件模块，包括软件模块的表达方式就能推测出来是一个软件设计文档，针对软件设计文档定义为是一个高敏感的级别。

通过这样的方式其实过去我们看到数据防泄漏的产品往往都是数十万到数百万的告警，但是我们真正把里面的告警找出来非常困难，通过这样的方式把告警找出来非常简单。

还有一个是API安全，API安全也是数据在流动过程中非常重要的环节，很多的数据流动都是通过API进行调用，在调用的过程中其实也会存在大量的问题，比如说我们过去针对API接口的识别，包括API脆弱性的识别，包括API业务功能是什么，在调用过程中有没有出现异常行为，过去这些很难通过传统的功能去识别，过去通过人的方式去识别是否是误报是否正确，第二个这个接口所产生的数据被调用是否应该被调用，等等一系列的行为我们通过大模型的方式进行了相关实践而且形成了相关的产品能力，并且应用到了很多的客户现场。

过去我们有大量的API接口和大量的行为要提取出右边客户真正关心API已经泄漏的数据行为是非常困难，大模型借助了API降噪的能力和自动化研判能力以及异常行为发现的能力，自动化输出右边这个图，某一个IP调用了某一个接口多少次，获取到了哪一个信息，涉及到数据规模有多少，有一些甚至结合了访问时间段等等，这类的威胁才是客户真正关心的数据，我认为大模型在很多的能力上我们可以给客户带来的价值点对于安全行业应用是越来越凸显。

其实安全行业也好，其它很多的行业也好现在在应用大模型还是在相对初步起步和发展的阶段，有一些客户希望基于大模型的智能体能够实现100%的全部自动化，我认为在安全行业还不行，过去我们更多把大模型作为一个安全专家进行安全问答，现在我们基于大模型的智能体逐步实现了辅助驾驶让大模型完成了绝大部分的工作，人在进行最后的确认。但是大模型在环境问题、性能问题全球各大企业在解决相关问题的基础上未来我们很多的业务场景将会进入到自动驾驶的阶段。

最后我是想跟大家汇报一下，我们认为人工智能针对与安全这一块已经带来了非常颠覆性的印象，其实我们很多的竞争对手，对方的一些黑客或者是犯罪分子现在也正在利用大模型提高他们的工作效率，所以我们在这个点上必须要通过抓住AI的机会提升我们智能化的防御能力，以上是我的汇报，感谢大家！