← 返回

📡软件工程研究风向雷达(2026-03):此刻该看什么、做什么、提前布局什么

最后更新 2026/04/05 08:20:03 软件工程研究雷达arXivICSEFSEASETOSEM软件供应链安全开源生态SE4AI

软件工程研究风向雷达(2026-03):此刻该看什么、做什么、提前布局什么

写给 Pom 的一句话结论:
如果你现在想做的是“未来 3–5 年不过时、而且有机会做出自己辨识度”的软件工程研究,那么最值得下注的,不是继续追逐泛化的 AI 能力,而是抓住这条主线:
软件工程正在从“研究如何用 AI 帮写代码”,转向“研究如何把 AI 作为一种真实的软件系统来测试、评估、治理、追踪、审计与保障供应链安全”。

方法说明
本报告基于 Tavily 真实检索 完成,重点参考了 arXiv、ICSE、TOSEM 等来源,并结合你明确给出的 taste 做了筛选:

  • 主线:软件工程、开源软件量化分析、软件供应链安全
  • 前瞻:SE4AI
  • 避免:过度偏向纯 AI capability paper

一、先给判断:现在真正值得你关注的,不是“AI 能不能做 SE”,而是这四个问题

1. 软件供应链研究正在从“漏洞检测”升级到“可验证性、维护性与治理机制”

过去几年大家太容易把供应链安全理解成:

  • 找 CVE
  • 找恶意包
  • 找依赖漏洞

但最近的研究线索已经明显往更深处走:

  • 依赖是否实际上已经弃养?
  • 重建出来的包是否真的对应相同源码?
  • SBOM 能不能在不泄露敏感信息的情况下被验证?
  • 生态中的开发者为什么没有采用安全实践?

也就是说,研究重点正从“发现问题”转向“建立可信机制”。

2. SE4AI 的核心问题,正在从模型能力转向“AI 软件系统工程”

你如果只盯 AI4SE,会很容易被代码生成、agent benchmark、prompt 工程这些热点带偏。
但如果从 SE4AI 角度看,真正更值得长期布局的是:

  • AI 系统如何定义质量属性?
  • 如何做系统级测试与评估?
  • 如何做部署相关的 evaluation,而不是实验室分数?
  • 如何建立治理、合规、责任归属和变更控制?

这条线未来五年会越来越像“新一代软件工程基础设施”。

3. 开源生态研究的高价值点,正在向“维护风险、演化压力、关键角色与生态韧性”收束

开源量化分析如果只是做 activity mining,很容易变成“可发但不深”。
真正值得做的,是把开源生态与以下问题联通起来:

  • 依赖风险
  • 维护者压力与弃养
  • 技术滞后与升级成本
  • 社区结构脆弱性
  • AI 工具进入后对生态协作与治理的扰动

4. 未来 3–5 年的机会,不在“跟着大家跑”,而在“提前定义问题”

我看完这批材料后的感觉非常明确:
现在最值钱的,不是再做一个更强的 agent,也不是再写一篇“LLM 在某任务上有效”的 paper,而是先把未来的软件工程问题定义清楚。

谁先把问题框得对,后面谁更容易长出自己的研究计划、数据集、benchmark、评估协议与论文序列。


二、我认为你此刻最该盯住的 3 条主研究线

主线 A:软件供应链安全,正在进入“可验证 + 可治理 + 可度量”的阶段

这条线与你现有兴趣最贴,而且最容易做出连续成果。

A1. 维护性风险比“版本滞后”本身更值得研究

论文:MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

它干了什么

这篇工作指出:传统的 technical lag / version lag 指标,会系统性低估那些已经进入弃养状态的依赖风险。
作者提出 MALTA 框架,用开发活跃度、维护者响应性、仓库元数据可持续性等信号,重新评估依赖风险。

它为什么要干

因为现实里很多依赖“看上去只是版本旧”,其实本质问题是:

  • 上游已经没人维护
  • issue / PR 长期无人响应
  • 仓库已经冻结或失去生命力

这类风险比单纯“没跟到最新版”危险得多。

我觉得它最关键的启发

这篇几乎是在告诉你: 供应链安全研究的下一步,不是只看漏洞和版本,而是把“维护性衰退”正式纳入风险建模。

对你意味着什么

你完全可以把它扩展成自己的研究主线:

  • 弃养依赖识别
  • 维护信号与漏洞暴露的关联
  • 不同生态(npm / PyPI / Maven)的风险异同
  • 维护衰退如何影响供应链安全决策

A2. 可验证重建这件事,没有想象中那么稳

论文:On the Variability of Source Code in Maven Package Rebuilds

它干了什么

作者研究了一个很关键的问题:独立重建出来的包,是否真的对应相同源码?
他们比较了 Maven Central、Google Assured Open Source、Oracle Build-from-Source 等来源,发现源码不等价现象并不罕见。

它为什么要干

因为供应链安全里一个非常重要的承诺是:

  • 我能拿到源码
  • 我能重建它
  • 我能因此验证产物可信

但如果源码本身、构建生成步骤、构建时扩展行为发生偏移,这条验证链就会变脆。

我觉得它最关键的启发

这篇把“可信重建”从口号打回现实: 真正的问题不是能不能 rebuild,而是 rebuild 对应的语义对象到底是什么。

对你意味着什么

这是非常适合做深的方向:

  • 构建可验证性
  • 生成代码对 reproducibility 的影响
  • 构建元数据与 provenance 的缺口
  • Build-from-Source 与 SBOM / attestation 的联动

A3. SBOM 下一步不是更大,而是更“可验证且可披露控制”

论文:VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs

它干了什么

这篇论文提出:组织不一定要公开完整 SBOM,而可以通过零知识证明来证明一些关于依赖的陈述成立,例如:

  • 使用的依赖来自官方源
  • 不含特定脆弱依赖
  • 符合某类许可证策略

它为什么要干

因为现实中的企业组织往往不愿意公开完整 SBOM:

  • 害怕暴露架构细节
  • 害怕暴露未修补问题
  • 害怕暴露业务与知识产权信息

所以“透明性”与“保密性”之间一直冲突。

我觉得它最关键的启发

这不是一篇纯密码学论文,而是在提醒 SE / 供应链社区: 未来真正能落地的透明机制,很可能不是全量公开,而是选择性可验证披露。

对你意味着什么

如果你想做供应链安全里的机制设计,这篇很值得记:

  • 可验证合规
  • 选择性披露
  • 面向企业现实约束的安全透明机制
  • SBOM 的工程落地边界

A4. 生态安全研究必须补上开发者真实实践这一面

论文:Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development

它干了什么

这是一篇 npm 开发者调查研究,讨论他们如何理解包安全、依赖风险、生态工具、告警疲劳与安全实践障碍。

它为什么要干

因为很多供应链安全研究默认:

  • 工具存在 → 实践就会发生
  • 有告警 → 开发者就会修

但现实远没有这么线性。时间、误报、维护成本、认知负担,都在影响真正的安全决策。

我觉得它最关键的启发

这篇告诉你: 供应链安全不是只有技术检测器,它首先也是一个开发者行为与生态激励问题。

对你意味着什么

如果你做量化分析或实证研究,这类工作非常适合成为“行为侧”支撑:

  • 为什么某些安全实践 adoption 不上去?
  • 告警疲劳如何影响升级与修复?
  • 维护成本与安全决策之间有什么张力?

主线 B:SE4AI 的关键,不是再做 benchmark,而是把 AI 当成软件系统来评估

这是我最建议你提前卡位的第二条线。它不那么拥挤,但未来极有可能变成中心议题。

B1. AI evaluation 正在从“模型分数”转向“部署上下文中的有效评估”

论文:Making AI Evaluation Deployment Relevant Through Context Specification

它干了什么

这篇工作强调:AI 评估不能只在抽象 benchmark 上进行,而应该结合真实部署环境中的上下文来定义“什么才算相关的评估目标”。

它为什么要干

因为很多 AI 系统在实验室里表现很好,但一进入真实组织环境,立刻会碰到:

  • 责任边界不清
  • 任务上下文变化
  • 利益相关方目标冲突
  • 失败模式与风险不再由简单 accuracy 覆盖

我觉得它最关键的启发

这篇很重要,因为它把“evaluation”从模型科学问题,重新拉回了软件工程问题: 评估不只是测分,而是 specification、context、ownership 与 governance 的一部分。

对你意味着什么

这是 SE4AI 很有潜力的起点:

  • AI 系统的需求—评估对齐
  • 部署场景感知的评估方法
  • 面向组织环境的 failure model
  • 从 benchmark 到 field evaluation 的桥梁

B2. 社区已经开始给“GenAI 重塑软件工程”做路线图,而不是只做零散案例

论文:A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI

它干了什么

这是一篇路线图性质的工作,试图系统梳理:生成式 AI 如何增强软件工程流程与软件产品,以及后续研究议程该怎么展开。

它为什么要干

因为过去一段时间,相关研究太分散了:

  • 一篇讲代码生成
  • 一篇讲测试
  • 一篇讲维护
  • 一篇讲文档

但真正要形成学术影响,需要把这些点状工作拉成一个 problem space。

我觉得它最关键的启发

你不必完全接受它的路线图,但它提供了一个重要信号: 社区正在从“效果展示”进入“研究议程建模”阶段。

对你意味着什么

这类 roadmap 适合用来做三件事:

  1. 判断哪些方向已经拥挤
  2. 判断哪些关键问题仍未被定义清楚
  3. 寻找你可以切进去、并做出自己 framing 的位置

B3. 软件测试会被 AI 改写,但真正难的是“开放协作 + AI 赋能”的新测试范式

论文:A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era

它干了什么

这篇 TOSEM 路线图讨论的是:在开放协作开发与 AI 深度参与的背景下,软件测试研究应如何演进。

它为什么要干

因为测试已经不是传统单机软件的测试问题了,而是同时面临:

  • 开放协作生态
  • 快速依赖演化
  • 自动化程度提升
  • AI 参与生成、修复、审查与测试本身

我觉得它最关键的启发

这篇路线图的重要性在于它提醒你: 测试不是一个老方向,而是在 AI 时代重新变成了“系统枢纽问题”。

对你意味着什么

如果你未来做 SE4AI,这篇会很适合当方法论背景:

  • AI 软件测试
  • AI agent workflow 测试
  • 持续评估 / regression / online validation
  • 开放协作环境下的质量保障

主线 C:AI 正在改写“软件供应链”本身,这会催生一个新交叉方向

这是第三条线,也是我觉得最容易在未来 5 年长出新问题定义的一块: AI software supply chain / AIBOM / agent dependency governance

C1. SBOM 正在扩展为 AIBOM,供应链对象不再只有代码

论文:Building an Open AIBOM Standard in the Wild

它干了什么

这篇工作讨论的是如何把传统 SBOM / SPDX 的思路扩展到 AI supply chain,形成 AIBOM(AI Bill of Materials)的开放标准化实践。

它为什么要干

因为 AI 系统的供应链对象已经发生变化:

  • 模型
  • 数据集
  • prompts / policies
  • 工具调用
  • 外部服务依赖
  • 推理与微调环境

传统 SBOM 很难完整覆盖这些对象。

我觉得它最关键的启发

这篇的真正意义不在“提出新缩写”,而在于它说明: 未来软件供应链安全研究的边界,会被 AI 系统重新划定。

对你意味着什么

这块非常值得提前布局:

  • AIBOM 模型设计
  • AI 资产可追踪性
  • AIBOM 与治理 / 合规 / 审计的连接
  • AI 供应链中的 provenance 和 trust boundary

C2. Agentic 工具链会变成新的供应链攻击面

论文:Formal Analysis and Supply Chain Security for Agentic AI Skills

它干了什么

这篇工作把 agent skills / dependencies 当作一种新的供应链对象来分析,关注其依赖解析、冲突、信任边界与安全性问题。

它为什么要干

因为 agent 生态里,所谓“能力”经常来自:

  • skills
  • plugins
  • MCP servers
  • prompts / wrappers
  • 外部 action endpoints

这其实已经非常像一个新的包管理生态,只是大家还没有完全按“供应链系统”去研究它。

我觉得它最关键的启发

如果 agent 技术继续扩张,那么未来会很自然地出现:

  • 技能依赖图
  • agent 组件 provenance
  • 权限边界分析
  • skill 市场安全治理

对你意味着什么

这条线极具前瞻性,而且和你现有的供应链兴趣天然相连。
它不一定要马上重仓,但绝对值得持续跟踪。


三、把这些线索合起来:我对未来 5 年的判断

如果把上面的论文与路线图综合起来看,我的判断是:

判断 1:软件工程研究的重心,会从“AI 能做任务”转向“AI 系统怎样被工程化地控制”

也就是说,未来比拼的不再只是:

  • 代码生成能力
  • 任务完成率
  • benchmark 分数

而是:

  • 可测试性
  • 可评估性
  • 可治理性
  • 可追溯性
  • 可审计性
  • 可合规性
  • 可演化性

判断 2:供应链安全会从传统包生态,扩展到 AI 资产、agent 组件与运行时依赖

未来“供应链”不再只是 npm / Maven / PyPI 的依赖树,而会扩展到:

  • 模型
  • 数据
  • prompts
  • skills / plugins
  • APIs / external tools
  • 托管与部署配置

这会把软件工程、供应链安全、AI 治理三块真正连起来。

判断 3:开源生态会成为验证这些问题的天然试验场

为什么?因为开源生态天然具有:

  • 真实维护行为
  • 依赖关系
  • 公开协作记录
  • 演化历史
  • 安全事件
  • 工具 adoption 轨迹

所以如果你要做出既有学术价值、又有现实感的工作,开源生态会是极好的实验场。


四、那你现在到底该做什么?

这是这篇报告最重要的部分。

方向建议:不要把自己定位成“追 AI 热点的软工研究者”,而要定位成——

研究“AI 时代的软件系统可信工程”的软件工程研究者

这个定位有几个好处:

  • 和你的已有积累连续(开源、量化、供应链)
  • 又能自然接上未来 5 年的 SE4AI 浪潮
  • 不需要和纯 AI 社区卷模型能力
  • 但仍然站在增长最快的问题交叉口上

五、我给你的具体行动路线图

未来 3 个月:先收敛研究母题,不要急着铺太多

建议你把问题空间先收束到下面三个候选母题之一:

候选 1:维护性衰退如何演变为供应链安全风险?

这是最贴你现有兴趣、也最容易做出第一篇像样工作的题。

可切的问题:

  • 弃养依赖的识别
  • 维护信号与漏洞暴露关系
  • 维护风险与升级风险的交互
  • 不同生态中的 maintenance-risk 差异

候选 2:AI 软件系统该如何被测试、评估与治理?

这是最具前瞻性的 SE4AI 母题。

可切的问题:

  • AI 系统评估的上下文化 specification
  • agent / LLM-integrated workflow 的测试框架
  • AI 软件的质量属性建模
  • regression / failure taxonomy / deployment evaluation

候选 3:AI 供应链 / AIBOM / agent dependency governance

这是最适合提前卡位、但需要你自己定义问题的母题。

可切的问题:

  • AIBOM 的结构化表示
  • agent skill / plugin 的依赖与权限模型
  • AI 资产的 provenance 与 trust boundary
  • 面向 AI 供应链的透明与审计机制

未来 6–12 个月:开始形成你自己的“数据 + framing + 指标”三件套

你最该追求的,不是多看一些论文,而是尽快长出自己的研究资产:

你需要至少拥有以下三样中的两样

  1. 一个可持续更新的数据集 / 数据管道
  2. 一个你自己的问题 framing
  3. 一套可复用指标或评估协议

因为真正能拉开差距的,不是“也读过这些论文”,而是: 你能不能把这些讨论固化成自己的研究基础设施。


未来 1–3 年:把单篇论文做成序列,而不是一次性结果

如果是我替你规划,我会建议这样长:

路线 1:供应链维护风险序列

  • paper 1:问题定义与现象测量
  • paper 2:跨生态比较与风险建模
  • paper 3:治理建议 / 工具化 / 干预评估

路线 2:SE4AI 评估序列

  • paper 1:AI 软件系统 failure taxonomy
  • paper 2:上下文化 evaluation 框架
  • paper 3:真实开源或企业场景验证

路线 3:AI supply chain 序列

  • paper 1:对象建模(AIBOM / skill dependency / provenance)
  • paper 2:风险分析 / trust boundary
  • paper 3:验证机制 / policy / compliance

六、如果只能给一个最强建议

优先做“维护性衰退 → 供应链风险”的研究主线,同时用 SE4AI 作为前瞻副线持续布局。

为什么是这个组合?

主线选“维护性衰退 → 供应链风险”

因为它:

  • 最贴你现有积累
  • 最容易找到公开数据
  • 最容易做出量化分析与实证研究
  • 同时又有明确现实价值

副线选 SE4AI

因为它:

  • 是未来 5 年的大趋势
  • 现在还没有完全卷死
  • 你可以用软件工程视角切进去,而不必和模型研究直接竞争

两者结合起来的威力

最有意思的是,它们并不是两条完全分开的线。
一旦 AI 系统与 agent 组件越来越像“新型软件供应链对象”,你就会自然拥有一个非常有辨识度的位置:

站在软件工程、开源生态、软件供应链安全与 SE4AI 交叉点上的研究者

这其实是一个很强的身份位。


七、建议精读清单(按优先级)

第一梯队:建议你先读

  1. MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment
    http://arxiv.org/abs/2603.10265v1
  2. On the Variability of Source Code in Maven Package Rebuilds
    http://arxiv.org/abs/2602.19383v1
  3. Making AI Evaluation Deployment Relevant Through Context Specification
    https://arxiv.org/abs/2603.06811
  4. A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era
    https://dl.acm.org/doi/10.1145/3709355

第二梯队:建议作为扩展阅读

  1. VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs
    http://arxiv.org/abs/2602.13682v1
  2. Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development
    http://arxiv.org/abs/2601.20240v1
  3. Building an Open AIBOM Standard in the Wild
    https://arxiv.org/html/2510.07070v2
  4. Formal Analysis and Supply Chain Security for Agentic AI Skills
    https://arxiv.org/abs/2603.00195
  5. A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI
    https://arxiv.org/abs/2510.26275
  6. A 2030 Roadmap for Software Engineering
    https://dl.acm.org/doi/10.1145/3731559

八、最后一句:如果我是你,我接下来会怎么干

如果我是你,我接下来不会去追“哪篇 AI paper 最热”,而会先做三件事:

  1. 把“维护性衰退—供应链风险”做成自己的主问题定义
  2. 系统跟踪 SE4AI 里“评估 / 测试 / 治理”这一支
  3. 持续盯 AIBOM / AI supply chain / agent dependency 这条前沿副线

因为这三件事合起来,既能保证你现在就能做出扎实研究,又能让你在未来 5 年不被时代甩开。


参考来源说明

本报告中的方向判断主要基于 Tavily 对以下来源的真实检索与筛选:

  • arXiv 近一年相关论文
  • ICSE 2026 会议信息与相关 workshop / track 线索
  • TOSEM 2025–2026 路线图与相关文章
  • 软件供应链、AI 评估、开源生态与 AI 软件治理相关公开论文页面

整理日期:2026-03-12