阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 287|回复: 0

[科技、报告] 《机器语言大模型赋能软件自主可控与安全可信》发布:中国电机工程学会【PDF】

[复制链接]

用户组:分区版主

我,秦始皇,打钱

重建论坛爱心会员勋章重建论坛勋章版主勋章分区版主勋章

      UID
51
      积分
6865
      回帖
544
      主题
801
      发书数
333
      威望
4659
      铜币
4872
      贡献
1200
      阅读权限
100
      注册时间
2025-2-27
      在线时间
1137 小时
      最后登录
2025-4-29
发表于 2025-3-21 01:27 | 显示全部楼层 |阅读模式


  报告聚焦于机器语言大模型对软件自主可控与安全可信的赋能,深入分析了当前软件生态面临的困境,提出创新解决方案并展示其应用成果,为推动软件行业发展提供了重要思路。
  1.背景:软件生态面临双重难题
  自主可控难题:关键软件长期依赖国外,如PC和移动端操作系统、工业设计与控制软件等。这些软件闭源,供应链风险高,面临断供、安全和知识产权风险,自主可控难度极大。
  安全可信难题:软件安全风险频发,漏洞问题层出不穷,恶意代码急剧增长,像震网病毒、MIRAI僵尸网络、WannaCry勒索病毒等,给网络安全带来巨大威胁。目标软件闭源增加了分析难度,安全问题隐藏深。
  2.关键问题:软件分析与理解困境
  软件分析——二进制信息缺失:在软件开发过程中,从源代码到机器码,符号、类型、边界等信息逐步丢失。二进制程序缺乏关键信息,反编译和反汇编时需恢复这些缺失内容,增加了软件分析的难度。
  软件理解——人在回路:分析软件代码功能、安全和性能时,需要人工参与语义分析,判断内存分配、加密解密、敏感数据流动等情况,但人工分析效率低且易出错。
  3.智能化方案:机器语言大模型MLM
  方案简介:基于Transformer架构,通过预训练、微调、RAG知识增强和工具使用,利用海量数据和适量标注数据,实现对二进制软件的分析。这一过程涉及大规模机器语言、自然语言和源代码的多模态对齐数据,以及全自动的数据生成、标注和对齐。
  关键技术突破:融合领域知识优化模型设计,融入代码领域知识;基于对比学习,使语义相似的二进制代码embedding接近;利用多模态学习,将语义空间与人类意图对齐,更准确表示二进制代码语义。
  模型优势:MLM可实现全场景智能化,语义理解超越人类专家水平,能高效辅助逆向分析,在多平台、多架构下,其反汇编核心功能全面超越传统工具IDAPro。
  4.典型应用:多领域突破创新*
  软件供应链分析:细粒度、高速地比对二进制代码,检测软件一致性,助力信创国产化和老旧软件升级迁移,解决采购痛点,保护软件版权。
  软件逆向分析:将黑盒二进制程序转化为白盒代码,挖掘0day、1day漏洞,突破卡脖子技术,解决破解取证难题,为软件安全提供有力支持。
  5.开启软件分析新范式**:机器语言大模型MLM作为全球首个此类模型,在软件自主可控与安全可信方面具有巨大潜力。它能有效应对软件生态面临的自主可控和安全可信难题,为软件行业的发展带来新的机遇,推动软件分析进入智能化新时代,在多领域发挥关键作用,助力产业升级与安全保障。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1威望 +1 铜币 +2 收起 理由
飞乌与渔 + 1 + 2 论坛有您更精彩!

查看全部评分

❤︎   做好人 · 读好书 · 得好报   ❤︎
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-4-29 07:04 , Processed in 0.154286 second(s), 28 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表