软件工程研究风向雷达（2026-03）：此刻该看什么、做什么、提前布局什么

写给 Pom 的一句话结论：
如果你现在想做的是“未来 3–5 年不过时、而且有机会做出自己辨识度”的软件工程研究，那么最值得下注的，不是继续追逐泛化的 AI 能力，而是抓住这条主线：
软件工程正在从“研究如何用 AI 帮写代码”，转向“研究如何把 AI 作为一种真实的软件系统来测试、评估、治理、追踪、审计与保障供应链安全”。

方法说明
本报告基于 Tavily 真实检索 完成，重点参考了 arXiv、ICSE、TOSEM 等来源，并结合你明确给出的 taste 做了筛选：

主线：软件工程、开源软件量化分析、软件供应链安全

前瞻：SE4AI

避免：过度偏向纯 AI capability paper

一、先给判断：现在真正值得你关注的，不是“AI 能不能做 SE”，而是这四个问题

1. 软件供应链研究正在从“漏洞检测”升级到“可验证性、维护性与治理机制”

过去几年大家太容易把供应链安全理解成：

找 CVE
找恶意包
找依赖漏洞

但最近的研究线索已经明显往更深处走：

依赖是否实际上已经弃养？
重建出来的包是否真的对应相同源码？
SBOM 能不能在不泄露敏感信息的情况下被验证？
生态中的开发者为什么没有采用安全实践？

也就是说，研究重点正从“发现问题”转向“建立可信机制”。

2. SE4AI 的核心问题，正在从模型能力转向“AI 软件系统工程”

你如果只盯 AI4SE，会很容易被代码生成、agent benchmark、prompt 工程这些热点带偏。
但如果从 SE4AI 角度看，真正更值得长期布局的是：

AI 系统如何定义质量属性？
如何做系统级测试与评估？
如何做部署相关的 evaluation，而不是实验室分数？
如何建立治理、合规、责任归属和变更控制？

这条线未来五年会越来越像“新一代软件工程基础设施”。

3. 开源生态研究的高价值点，正在向“维护风险、演化压力、关键角色与生态韧性”收束

开源量化分析如果只是做 activity mining，很容易变成“可发但不深”。
真正值得做的，是把开源生态与以下问题联通起来：

依赖风险
维护者压力与弃养
技术滞后与升级成本
社区结构脆弱性
AI 工具进入后对生态协作与治理的扰动

4. 未来 3–5 年的机会，不在“跟着大家跑”，而在“提前定义问题”

我看完这批材料后的感觉非常明确：
现在最值钱的，不是再做一个更强的 agent，也不是再写一篇“LLM 在某任务上有效”的 paper，而是先把未来的软件工程问题定义清楚。

谁先把问题框得对，后面谁更容易长出自己的研究计划、数据集、benchmark、评估协议与论文序列。

二、我认为你此刻最该盯住的 3 条主研究线

主线 A：软件供应链安全，正在进入“可验证 + 可治理 + 可度量”的阶段

这条线与你现有兴趣最贴，而且最容易做出连续成果。

A1. 维护性风险比“版本滞后”本身更值得研究

论文：MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

链接：http://arxiv.org/abs/2603.10265v1

它干了什么

这篇工作指出：传统的 technical lag / version lag 指标，会系统性低估那些已经进入弃养状态的依赖风险。
作者提出 MALTA 框架，用开发活跃度、维护者响应性、仓库元数据可持续性等信号，重新评估依赖风险。

它为什么要干

因为现实里很多依赖“看上去只是版本旧”，其实本质问题是：

上游已经没人维护
issue / PR 长期无人响应
仓库已经冻结或失去生命力

这类风险比单纯“没跟到最新版”危险得多。

我觉得它最关键的启发

这篇几乎是在告诉你： 供应链安全研究的下一步，不是只看漏洞和版本，而是把“维护性衰退”正式纳入风险建模。

对你意味着什么

你完全可以把它扩展成自己的研究主线：

弃养依赖识别
维护信号与漏洞暴露的关联
不同生态（npm / PyPI / Maven）的风险异同
维护衰退如何影响供应链安全决策

A2. 可验证重建这件事，没有想象中那么稳

论文：On the Variability of Source Code in Maven Package Rebuilds

链接：http://arxiv.org/abs/2602.19383v1

它干了什么

作者研究了一个很关键的问题：独立重建出来的包，是否真的对应相同源码？
他们比较了 Maven Central、Google Assured Open Source、Oracle Build-from-Source 等来源，发现源码不等价现象并不罕见。

它为什么要干

因为供应链安全里一个非常重要的承诺是：

我能拿到源码
我能重建它
我能因此验证产物可信

但如果源码本身、构建生成步骤、构建时扩展行为发生偏移，这条验证链就会变脆。

我觉得它最关键的启发

这篇把“可信重建”从口号打回现实： 真正的问题不是能不能 rebuild，而是 rebuild 对应的语义对象到底是什么。

对你意味着什么

这是非常适合做深的方向：

构建可验证性
生成代码对 reproducibility 的影响
构建元数据与 provenance 的缺口
Build-from-Source 与 SBOM / attestation 的联动

A3. SBOM 下一步不是更大，而是更“可验证且可披露控制”

论文：VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs

链接：http://arxiv.org/abs/2602.13682v1

它干了什么

这篇论文提出：组织不一定要公开完整 SBOM，而可以通过零知识证明来证明一些关于依赖的陈述成立，例如：

使用的依赖来自官方源
不含特定脆弱依赖
符合某类许可证策略

它为什么要干

因为现实中的企业组织往往不愿意公开完整 SBOM：

害怕暴露架构细节
害怕暴露未修补问题
害怕暴露业务与知识产权信息

所以“透明性”与“保密性”之间一直冲突。

我觉得它最关键的启发

这不是一篇纯密码学论文，而是在提醒 SE / 供应链社区： 未来真正能落地的透明机制，很可能不是全量公开，而是选择性可验证披露。

对你意味着什么

如果你想做供应链安全里的机制设计，这篇很值得记：

可验证合规
选择性披露
面向企业现实约束的安全透明机制
SBOM 的工程落地边界

A4. 生态安全研究必须补上开发者真实实践这一面

论文：Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development

链接：http://arxiv.org/abs/2601.20240v1

它干了什么

这是一篇 npm 开发者调查研究，讨论他们如何理解包安全、依赖风险、生态工具、告警疲劳与安全实践障碍。

它为什么要干

因为很多供应链安全研究默认：

工具存在 → 实践就会发生
有告警 → 开发者就会修

但现实远没有这么线性。时间、误报、维护成本、认知负担，都在影响真正的安全决策。

我觉得它最关键的启发

这篇告诉你： 供应链安全不是只有技术检测器，它首先也是一个开发者行为与生态激励问题。

对你意味着什么

如果你做量化分析或实证研究，这类工作非常适合成为“行为侧”支撑：

为什么某些安全实践 adoption 不上去？
告警疲劳如何影响升级与修复？
维护成本与安全决策之间有什么张力？

主线 B：SE4AI 的关键，不是再做 benchmark，而是把 AI 当成软件系统来评估

这是我最建议你提前卡位的第二条线。它不那么拥挤，但未来极有可能变成中心议题。

B1. AI evaluation 正在从“模型分数”转向“部署上下文中的有效评估”

论文：Making AI Evaluation Deployment Relevant Through Context Specification

链接：https://arxiv.org/abs/2603.06811

它干了什么

这篇工作强调：AI 评估不能只在抽象 benchmark 上进行，而应该结合真实部署环境中的上下文来定义“什么才算相关的评估目标”。

它为什么要干

因为很多 AI 系统在实验室里表现很好，但一进入真实组织环境，立刻会碰到：

责任边界不清
任务上下文变化
利益相关方目标冲突
失败模式与风险不再由简单 accuracy 覆盖

我觉得它最关键的启发

这篇很重要，因为它把“evaluation”从模型科学问题，重新拉回了软件工程问题： 评估不只是测分，而是 specification、context、ownership 与 governance 的一部分。

对你意味着什么

这是 SE4AI 很有潜力的起点：

AI 系统的需求—评估对齐
部署场景感知的评估方法
面向组织环境的 failure model
从 benchmark 到 field evaluation 的桥梁

B2. 社区已经开始给“GenAI 重塑软件工程”做路线图，而不是只做零散案例

论文：A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI

链接：https://arxiv.org/abs/2510.26275

它干了什么

这是一篇路线图性质的工作，试图系统梳理：生成式 AI 如何增强软件工程流程与软件产品，以及后续研究议程该怎么展开。

它为什么要干

因为过去一段时间，相关研究太分散了：

一篇讲代码生成
一篇讲测试
一篇讲维护
一篇讲文档

但真正要形成学术影响，需要把这些点状工作拉成一个 problem space。

我觉得它最关键的启发

你不必完全接受它的路线图，但它提供了一个重要信号： 社区正在从“效果展示”进入“研究议程建模”阶段。

对你意味着什么

这类 roadmap 适合用来做三件事：

判断哪些方向已经拥挤
判断哪些关键问题仍未被定义清楚
寻找你可以切进去、并做出自己 framing 的位置

B3. 软件测试会被 AI 改写，但真正难的是“开放协作 + AI 赋能”的新测试范式

论文：A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era

链接：https://dl.acm.org/doi/10.1145/3709355

它干了什么

这篇 TOSEM 路线图讨论的是：在开放协作开发与 AI 深度参与的背景下，软件测试研究应如何演进。

它为什么要干

因为测试已经不是传统单机软件的测试问题了，而是同时面临：

开放协作生态
快速依赖演化
自动化程度提升
AI 参与生成、修复、审查与测试本身

我觉得它最关键的启发

这篇路线图的重要性在于它提醒你： 测试不是一个老方向，而是在 AI 时代重新变成了“系统枢纽问题”。

对你意味着什么

如果你未来做 SE4AI，这篇会很适合当方法论背景：

AI 软件测试
AI agent workflow 测试
持续评估 / regression / online validation
开放协作环境下的质量保障

主线 C：AI 正在改写“软件供应链”本身，这会催生一个新交叉方向

这是第三条线，也是我觉得最容易在未来 5 年长出新问题定义的一块： AI software supply chain / AIBOM / agent dependency governance。

C1. SBOM 正在扩展为 AIBOM，供应链对象不再只有代码

论文：Building an Open AIBOM Standard in the Wild

链接：https://arxiv.org/html/2510.07070v2

它干了什么

这篇工作讨论的是如何把传统 SBOM / SPDX 的思路扩展到 AI supply chain，形成 AIBOM（AI Bill of Materials）的开放标准化实践。

它为什么要干

因为 AI 系统的供应链对象已经发生变化：

模型
数据集
prompts / policies
工具调用
外部服务依赖
推理与微调环境

传统 SBOM 很难完整覆盖这些对象。

我觉得它最关键的启发

这篇的真正意义不在“提出新缩写”，而在于它说明： 未来软件供应链安全研究的边界，会被 AI 系统重新划定。

对你意味着什么

这块非常值得提前布局：

AIBOM 模型设计
AI 资产可追踪性
AIBOM 与治理 / 合规 / 审计的连接
AI 供应链中的 provenance 和 trust boundary

C2. Agentic 工具链会变成新的供应链攻击面

论文：Formal Analysis and Supply Chain Security for Agentic AI Skills

链接：https://arxiv.org/abs/2603.00195

它干了什么

这篇工作把 agent skills / dependencies 当作一种新的供应链对象来分析，关注其依赖解析、冲突、信任边界与安全性问题。

它为什么要干

因为 agent 生态里，所谓“能力”经常来自：

skills
plugins
MCP servers
prompts / wrappers
外部 action endpoints

这其实已经非常像一个新的包管理生态，只是大家还没有完全按“供应链系统”去研究它。

我觉得它最关键的启发

如果 agent 技术继续扩张，那么未来会很自然地出现：

技能依赖图
agent 组件 provenance
权限边界分析
skill 市场安全治理

对你意味着什么

这条线极具前瞻性，而且和你现有的供应链兴趣天然相连。
它不一定要马上重仓，但绝对值得持续跟踪。

三、把这些线索合起来：我对未来 5 年的判断

如果把上面的论文与路线图综合起来看，我的判断是：

判断 1：软件工程研究的重心，会从“AI 能做任务”转向“AI 系统怎样被工程化地控制”

也就是说，未来比拼的不再只是：

代码生成能力
任务完成率
benchmark 分数

而是：

可测试性
可评估性
可治理性
可追溯性
可审计性
可合规性
可演化性

判断 2：供应链安全会从传统包生态，扩展到 AI 资产、agent 组件与运行时依赖

未来“供应链”不再只是 npm / Maven / PyPI 的依赖树，而会扩展到：

模型
数据
prompts
skills / plugins
APIs / external tools
托管与部署配置

这会把软件工程、供应链安全、AI 治理三块真正连起来。

判断 3：开源生态会成为验证这些问题的天然试验场

为什么？因为开源生态天然具有：

真实维护行为
依赖关系
公开协作记录
演化历史
安全事件
工具 adoption 轨迹

所以如果你要做出既有学术价值、又有现实感的工作，开源生态会是极好的实验场。

四、那你现在到底该做什么？

这是这篇报告最重要的部分。

方向建议：不要把自己定位成“追 AI 热点的软工研究者”，而要定位成——

研究“AI 时代的软件系统可信工程”的软件工程研究者

这个定位有几个好处：

和你的已有积累连续（开源、量化、供应链）
又能自然接上未来 5 年的 SE4AI 浪潮
不需要和纯 AI 社区卷模型能力
但仍然站在增长最快的问题交叉口上

五、我给你的具体行动路线图

未来 3 个月：先收敛研究母题，不要急着铺太多

建议你把问题空间先收束到下面三个候选母题之一：

候选 1：维护性衰退如何演变为供应链安全风险？

这是最贴你现有兴趣、也最容易做出第一篇像样工作的题。

可切的问题：

弃养依赖的识别
维护信号与漏洞暴露关系
维护风险与升级风险的交互
不同生态中的 maintenance-risk 差异

候选 2：AI 软件系统该如何被测试、评估与治理？

这是最具前瞻性的 SE4AI 母题。

可切的问题：

AI 系统评估的上下文化 specification
agent / LLM-integrated workflow 的测试框架
AI 软件的质量属性建模
regression / failure taxonomy / deployment evaluation

候选 3：AI 供应链 / AIBOM / agent dependency governance

这是最适合提前卡位、但需要你自己定义问题的母题。

可切的问题：

AIBOM 的结构化表示
agent skill / plugin 的依赖与权限模型
AI 资产的 provenance 与 trust boundary
面向 AI 供应链的透明与审计机制

未来 6–12 个月：开始形成你自己的“数据 + framing + 指标”三件套

你最该追求的，不是多看一些论文，而是尽快长出自己的研究资产：

你需要至少拥有以下三样中的两样

一个可持续更新的数据集 / 数据管道
一个你自己的问题 framing
一套可复用指标或评估协议

因为真正能拉开差距的，不是“也读过这些论文”，而是： 你能不能把这些讨论固化成自己的研究基础设施。

未来 1–3 年：把单篇论文做成序列，而不是一次性结果

如果是我替你规划，我会建议这样长：

路线 1：供应链维护风险序列

paper 1：问题定义与现象测量
paper 2：跨生态比较与风险建模
paper 3：治理建议 / 工具化 / 干预评估

路线 2：SE4AI 评估序列

paper 1：AI 软件系统 failure taxonomy
paper 2：上下文化 evaluation 框架
paper 3：真实开源或企业场景验证

路线 3：AI supply chain 序列

paper 1：对象建模（AIBOM / skill dependency / provenance）
paper 2：风险分析 / trust boundary
paper 3：验证机制 / policy / compliance

六、如果只能给一个最强建议

优先做“维护性衰退 → 供应链风险”的研究主线，同时用 SE4AI 作为前瞻副线持续布局。

为什么是这个组合？

主线选“维护性衰退 → 供应链风险”

因为它：

最贴你现有积累
最容易找到公开数据
最容易做出量化分析与实证研究
同时又有明确现实价值

副线选 SE4AI

因为它：

是未来 5 年的大趋势
现在还没有完全卷死
你可以用软件工程视角切进去，而不必和模型研究直接竞争

两者结合起来的威力

最有意思的是，它们并不是两条完全分开的线。
一旦 AI 系统与 agent 组件越来越像“新型软件供应链对象”，你就会自然拥有一个非常有辨识度的位置：

站在软件工程、开源生态、软件供应链安全与 SE4AI 交叉点上的研究者

这其实是一个很强的身份位。

七、建议精读清单（按优先级）

第一梯队：建议你先读

MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment
http://arxiv.org/abs/2603.10265v1
On the Variability of Source Code in Maven Package Rebuilds
http://arxiv.org/abs/2602.19383v1
Making AI Evaluation Deployment Relevant Through Context Specification
https://arxiv.org/abs/2603.06811
A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era
https://dl.acm.org/doi/10.1145/3709355

第二梯队：建议作为扩展阅读

VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs
http://arxiv.org/abs/2602.13682v1
Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development
http://arxiv.org/abs/2601.20240v1
Building an Open AIBOM Standard in the Wild
https://arxiv.org/html/2510.07070v2
Formal Analysis and Supply Chain Security for Agentic AI Skills
https://arxiv.org/abs/2603.00195
A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI
https://arxiv.org/abs/2510.26275
A 2030 Roadmap for Software Engineering
https://dl.acm.org/doi/10.1145/3731559

八、最后一句：如果我是你，我接下来会怎么干

如果我是你，我接下来不会去追“哪篇 AI paper 最热”，而会先做三件事：

把“维护性衰退—供应链风险”做成自己的主问题定义
系统跟踪 SE4AI 里“评估 / 测试 / 治理”这一支
持续盯 AIBOM / AI supply chain / agent dependency 这条前沿副线

因为这三件事合起来，既能保证你现在就能做出扎实研究，又能让你在未来 5 年不被时代甩开。

参考来源说明

本报告中的方向判断主要基于 Tavily 对以下来源的真实检索与筛选：

arXiv 近一年相关论文
ICSE 2026 会议信息与相关 workshop / track 线索
TOSEM 2025–2026 路线图与相关文章
软件供应链、AI 评估、开源生态与 AI 软件治理相关公开论文页面

整理日期：2026-03-12