📡软件工程研究风向雷达(2026-03):此刻该看什么、做什么、提前布局什么
软件工程研究风向雷达(2026-03):此刻该看什么、做什么、提前布局什么
写给 Pom 的一句话结论:
如果你现在想做的是“未来 3–5 年不过时、而且有机会做出自己辨识度”的软件工程研究,那么最值得下注的,不是继续追逐泛化的 AI 能力,而是抓住这条主线:
软件工程正在从“研究如何用 AI 帮写代码”,转向“研究如何把 AI 作为一种真实的软件系统来测试、评估、治理、追踪、审计与保障供应链安全”。
方法说明
本报告基于 Tavily 真实检索 完成,重点参考了 arXiv、ICSE、TOSEM 等来源,并结合你明确给出的 taste 做了筛选:
- 主线:软件工程、开源软件量化分析、软件供应链安全
- 前瞻:SE4AI
- 避免:过度偏向纯 AI capability paper
一、先给判断:现在真正值得你关注的,不是“AI 能不能做 SE”,而是这四个问题
1. 软件供应链研究正在从“漏洞检测”升级到“可验证性、维护性与治理机制”
过去几年大家太容易把供应链安全理解成:
- 找 CVE
- 找恶意包
- 找依赖漏洞
但最近的研究线索已经明显往更深处走:
- 依赖是否实际上已经弃养?
- 重建出来的包是否真的对应相同源码?
- SBOM 能不能在不泄露敏感信息的情况下被验证?
- 生态中的开发者为什么没有采用安全实践?
也就是说,研究重点正从“发现问题”转向“建立可信机制”。
2. SE4AI 的核心问题,正在从模型能力转向“AI 软件系统工程”
你如果只盯 AI4SE,会很容易被代码生成、agent benchmark、prompt 工程这些热点带偏。
但如果从 SE4AI 角度看,真正更值得长期布局的是:
- AI 系统如何定义质量属性?
- 如何做系统级测试与评估?
- 如何做部署相关的 evaluation,而不是实验室分数?
- 如何建立治理、合规、责任归属和变更控制?
这条线未来五年会越来越像“新一代软件工程基础设施”。
3. 开源生态研究的高价值点,正在向“维护风险、演化压力、关键角色与生态韧性”收束
开源量化分析如果只是做 activity mining,很容易变成“可发但不深”。
真正值得做的,是把开源生态与以下问题联通起来:
- 依赖风险
- 维护者压力与弃养
- 技术滞后与升级成本
- 社区结构脆弱性
- AI 工具进入后对生态协作与治理的扰动
4. 未来 3–5 年的机会,不在“跟着大家跑”,而在“提前定义问题”
我看完这批材料后的感觉非常明确:
现在最值钱的,不是再做一个更强的 agent,也不是再写一篇“LLM 在某任务上有效”的 paper,而是先把未来的软件工程问题定义清楚。
谁先把问题框得对,后面谁更容易长出自己的研究计划、数据集、benchmark、评估协议与论文序列。
二、我认为你此刻最该盯住的 3 条主研究线
主线 A:软件供应链安全,正在进入“可验证 + 可治理 + 可度量”的阶段
这条线与你现有兴趣最贴,而且最容易做出连续成果。
A1. 维护性风险比“版本滞后”本身更值得研究
论文:MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment
它干了什么
这篇工作指出:传统的 technical lag / version lag 指标,会系统性低估那些已经进入弃养状态的依赖风险。
作者提出 MALTA 框架,用开发活跃度、维护者响应性、仓库元数据可持续性等信号,重新评估依赖风险。
它为什么要干
因为现实里很多依赖“看上去只是版本旧”,其实本质问题是:
- 上游已经没人维护
- issue / PR 长期无人响应
- 仓库已经冻结或失去生命力
这类风险比单纯“没跟到最新版”危险得多。
我觉得它最关键的启发
这篇几乎是在告诉你: 供应链安全研究的下一步,不是只看漏洞和版本,而是把“维护性衰退”正式纳入风险建模。
对你意味着什么
你完全可以把它扩展成自己的研究主线:
- 弃养依赖识别
- 维护信号与漏洞暴露的关联
- 不同生态(npm / PyPI / Maven)的风险异同
- 维护衰退如何影响供应链安全决策
A2. 可验证重建这件事,没有想象中那么稳
论文:On the Variability of Source Code in Maven Package Rebuilds
它干了什么
作者研究了一个很关键的问题:独立重建出来的包,是否真的对应相同源码?
他们比较了 Maven Central、Google Assured Open Source、Oracle Build-from-Source 等来源,发现源码不等价现象并不罕见。
它为什么要干
因为供应链安全里一个非常重要的承诺是:
- 我能拿到源码
- 我能重建它
- 我能因此验证产物可信
但如果源码本身、构建生成步骤、构建时扩展行为发生偏移,这条验证链就会变脆。
我觉得它最关键的启发
这篇把“可信重建”从口号打回现实: 真正的问题不是能不能 rebuild,而是 rebuild 对应的语义对象到底是什么。
对你意味着什么
这是非常适合做深的方向:
- 构建可验证性
- 生成代码对 reproducibility 的影响
- 构建元数据与 provenance 的缺口
- Build-from-Source 与 SBOM / attestation 的联动
A3. SBOM 下一步不是更大,而是更“可验证且可披露控制”
论文:VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs
它干了什么
这篇论文提出:组织不一定要公开完整 SBOM,而可以通过零知识证明来证明一些关于依赖的陈述成立,例如:
- 使用的依赖来自官方源
- 不含特定脆弱依赖
- 符合某类许可证策略
它为什么要干
因为现实中的企业组织往往不愿意公开完整 SBOM:
- 害怕暴露架构细节
- 害怕暴露未修补问题
- 害怕暴露业务与知识产权信息
所以“透明性”与“保密性”之间一直冲突。
我觉得它最关键的启发
这不是一篇纯密码学论文,而是在提醒 SE / 供应链社区: 未来真正能落地的透明机制,很可能不是全量公开,而是选择性可验证披露。
对你意味着什么
如果你想做供应链安全里的机制设计,这篇很值得记:
- 可验证合规
- 选择性披露
- 面向企业现实约束的安全透明机制
- SBOM 的工程落地边界
A4. 生态安全研究必须补上开发者真实实践这一面
论文:Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development
它干了什么
这是一篇 npm 开发者调查研究,讨论他们如何理解包安全、依赖风险、生态工具、告警疲劳与安全实践障碍。
它为什么要干
因为很多供应链安全研究默认:
- 工具存在 → 实践就会发生
- 有告警 → 开发者就会修
但现实远没有这么线性。时间、误报、维护成本、认知负担,都在影响真正的安全决策。
我觉得它最关键的启发
这篇告诉你: 供应链安全不是只有技术检测器,它首先也是一个开发者行为与生态激励问题。
对你意味着什么
如果你做量化分析或实证研究,这类工作非常适合成为“行为侧”支撑:
- 为什么某些安全实践 adoption 不上去?
- 告警疲劳如何影响升级与修复?
- 维护成本与安全决策之间有什么张力?
主线 B:SE4AI 的关键,不是再做 benchmark,而是把 AI 当成软件系统来评估
这是我最建议你提前卡位的第二条线。它不那么拥挤,但未来极有可能变成中心议题。
B1. AI evaluation 正在从“模型分数”转向“部署上下文中的有效评估”
论文:Making AI Evaluation Deployment Relevant Through Context Specification
它干了什么
这篇工作强调:AI 评估不能只在抽象 benchmark 上进行,而应该结合真实部署环境中的上下文来定义“什么才算相关的评估目标”。
它为什么要干
因为很多 AI 系统在实验室里表现很好,但一进入真实组织环境,立刻会碰到:
- 责任边界不清
- 任务上下文变化
- 利益相关方目标冲突
- 失败模式与风险不再由简单 accuracy 覆盖
我觉得它最关键的启发
这篇很重要,因为它把“evaluation”从模型科学问题,重新拉回了软件工程问题: 评估不只是测分,而是 specification、context、ownership 与 governance 的一部分。
对你意味着什么
这是 SE4AI 很有潜力的起点:
- AI 系统的需求—评估对齐
- 部署场景感知的评估方法
- 面向组织环境的 failure model
- 从 benchmark 到 field evaluation 的桥梁
B2. 社区已经开始给“GenAI 重塑软件工程”做路线图,而不是只做零散案例
论文:A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI
它干了什么
这是一篇路线图性质的工作,试图系统梳理:生成式 AI 如何增强软件工程流程与软件产品,以及后续研究议程该怎么展开。
它为什么要干
因为过去一段时间,相关研究太分散了:
- 一篇讲代码生成
- 一篇讲测试
- 一篇讲维护
- 一篇讲文档
但真正要形成学术影响,需要把这些点状工作拉成一个 problem space。
我觉得它最关键的启发
你不必完全接受它的路线图,但它提供了一个重要信号: 社区正在从“效果展示”进入“研究议程建模”阶段。
对你意味着什么
这类 roadmap 适合用来做三件事:
- 判断哪些方向已经拥挤
- 判断哪些关键问题仍未被定义清楚
- 寻找你可以切进去、并做出自己 framing 的位置
B3. 软件测试会被 AI 改写,但真正难的是“开放协作 + AI 赋能”的新测试范式
论文:A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era
它干了什么
这篇 TOSEM 路线图讨论的是:在开放协作开发与 AI 深度参与的背景下,软件测试研究应如何演进。
它为什么要干
因为测试已经不是传统单机软件的测试问题了,而是同时面临:
- 开放协作生态
- 快速依赖演化
- 自动化程度提升
- AI 参与生成、修复、审查与测试本身
我觉得它最关键的启发
这篇路线图的重要性在于它提醒你: 测试不是一个老方向,而是在 AI 时代重新变成了“系统枢纽问题”。
对你意味着什么
如果你未来做 SE4AI,这篇会很适合当方法论背景:
- AI 软件测试
- AI agent workflow 测试
- 持续评估 / regression / online validation
- 开放协作环境下的质量保障
主线 C:AI 正在改写“软件供应链”本身,这会催生一个新交叉方向
这是第三条线,也是我觉得最容易在未来 5 年长出新问题定义的一块: AI software supply chain / AIBOM / agent dependency governance。
C1. SBOM 正在扩展为 AIBOM,供应链对象不再只有代码
论文:Building an Open AIBOM Standard in the Wild
它干了什么
这篇工作讨论的是如何把传统 SBOM / SPDX 的思路扩展到 AI supply chain,形成 AIBOM(AI Bill of Materials)的开放标准化实践。
它为什么要干
因为 AI 系统的供应链对象已经发生变化:
- 模型
- 数据集
- prompts / policies
- 工具调用
- 外部服务依赖
- 推理与微调环境
传统 SBOM 很难完整覆盖这些对象。
我觉得它最关键的启发
这篇的真正意义不在“提出新缩写”,而在于它说明: 未来软件供应链安全研究的边界,会被 AI 系统重新划定。
对你意味着什么
这块非常值得提前布局:
- AIBOM 模型设计
- AI 资产可追踪性
- AIBOM 与治理 / 合规 / 审计的连接
- AI 供应链中的 provenance 和 trust boundary
C2. Agentic 工具链会变成新的供应链攻击面
论文:Formal Analysis and Supply Chain Security for Agentic AI Skills
它干了什么
这篇工作把 agent skills / dependencies 当作一种新的供应链对象来分析,关注其依赖解析、冲突、信任边界与安全性问题。
它为什么要干
因为 agent 生态里,所谓“能力”经常来自:
- skills
- plugins
- MCP servers
- prompts / wrappers
- 外部 action endpoints
这其实已经非常像一个新的包管理生态,只是大家还没有完全按“供应链系统”去研究它。
我觉得它最关键的启发
如果 agent 技术继续扩张,那么未来会很自然地出现:
- 技能依赖图
- agent 组件 provenance
- 权限边界分析
- skill 市场安全治理
对你意味着什么
这条线极具前瞻性,而且和你现有的供应链兴趣天然相连。
它不一定要马上重仓,但绝对值得持续跟踪。
三、把这些线索合起来:我对未来 5 年的判断
如果把上面的论文与路线图综合起来看,我的判断是:
判断 1:软件工程研究的重心,会从“AI 能做任务”转向“AI 系统怎样被工程化地控制”
也就是说,未来比拼的不再只是:
- 代码生成能力
- 任务完成率
- benchmark 分数
而是:
- 可测试性
- 可评估性
- 可治理性
- 可追溯性
- 可审计性
- 可合规性
- 可演化性
判断 2:供应链安全会从传统包生态,扩展到 AI 资产、agent 组件与运行时依赖
未来“供应链”不再只是 npm / Maven / PyPI 的依赖树,而会扩展到:
- 模型
- 数据
- prompts
- skills / plugins
- APIs / external tools
- 托管与部署配置
这会把软件工程、供应链安全、AI 治理三块真正连起来。
判断 3:开源生态会成为验证这些问题的天然试验场
为什么?因为开源生态天然具有:
- 真实维护行为
- 依赖关系
- 公开协作记录
- 演化历史
- 安全事件
- 工具 adoption 轨迹
所以如果你要做出既有学术价值、又有现实感的工作,开源生态会是极好的实验场。
四、那你现在到底该做什么?
这是这篇报告最重要的部分。
方向建议:不要把自己定位成“追 AI 热点的软工研究者”,而要定位成——
研究“AI 时代的软件系统可信工程”的软件工程研究者
这个定位有几个好处:
- 和你的已有积累连续(开源、量化、供应链)
- 又能自然接上未来 5 年的 SE4AI 浪潮
- 不需要和纯 AI 社区卷模型能力
- 但仍然站在增长最快的问题交叉口上
五、我给你的具体行动路线图
未来 3 个月:先收敛研究母题,不要急着铺太多
建议你把问题空间先收束到下面三个候选母题之一:
候选 1:维护性衰退如何演变为供应链安全风险?
这是最贴你现有兴趣、也最容易做出第一篇像样工作的题。
可切的问题:
- 弃养依赖的识别
- 维护信号与漏洞暴露关系
- 维护风险与升级风险的交互
- 不同生态中的 maintenance-risk 差异
候选 2:AI 软件系统该如何被测试、评估与治理?
这是最具前瞻性的 SE4AI 母题。
可切的问题:
- AI 系统评估的上下文化 specification
- agent / LLM-integrated workflow 的测试框架
- AI 软件的质量属性建模
- regression / failure taxonomy / deployment evaluation
候选 3:AI 供应链 / AIBOM / agent dependency governance
这是最适合提前卡位、但需要你自己定义问题的母题。
可切的问题:
- AIBOM 的结构化表示
- agent skill / plugin 的依赖与权限模型
- AI 资产的 provenance 与 trust boundary
- 面向 AI 供应链的透明与审计机制
未来 6–12 个月:开始形成你自己的“数据 + framing + 指标”三件套
你最该追求的,不是多看一些论文,而是尽快长出自己的研究资产:
你需要至少拥有以下三样中的两样
- 一个可持续更新的数据集 / 数据管道
- 一个你自己的问题 framing
- 一套可复用指标或评估协议
因为真正能拉开差距的,不是“也读过这些论文”,而是: 你能不能把这些讨论固化成自己的研究基础设施。
未来 1–3 年:把单篇论文做成序列,而不是一次性结果
如果是我替你规划,我会建议这样长:
路线 1:供应链维护风险序列
- paper 1:问题定义与现象测量
- paper 2:跨生态比较与风险建模
- paper 3:治理建议 / 工具化 / 干预评估
路线 2:SE4AI 评估序列
- paper 1:AI 软件系统 failure taxonomy
- paper 2:上下文化 evaluation 框架
- paper 3:真实开源或企业场景验证
路线 3:AI supply chain 序列
- paper 1:对象建模(AIBOM / skill dependency / provenance)
- paper 2:风险分析 / trust boundary
- paper 3:验证机制 / policy / compliance
六、如果只能给一个最强建议
优先做“维护性衰退 → 供应链风险”的研究主线,同时用 SE4AI 作为前瞻副线持续布局。
为什么是这个组合?
主线选“维护性衰退 → 供应链风险”
因为它:
- 最贴你现有积累
- 最容易找到公开数据
- 最容易做出量化分析与实证研究
- 同时又有明确现实价值
副线选 SE4AI
因为它:
- 是未来 5 年的大趋势
- 现在还没有完全卷死
- 你可以用软件工程视角切进去,而不必和模型研究直接竞争
两者结合起来的威力
最有意思的是,它们并不是两条完全分开的线。
一旦 AI 系统与 agent 组件越来越像“新型软件供应链对象”,你就会自然拥有一个非常有辨识度的位置:
站在软件工程、开源生态、软件供应链安全与 SE4AI 交叉点上的研究者
这其实是一个很强的身份位。
七、建议精读清单(按优先级)
第一梯队:建议你先读
- MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment
http://arxiv.org/abs/2603.10265v1 - On the Variability of Source Code in Maven Package Rebuilds
http://arxiv.org/abs/2602.19383v1 - Making AI Evaluation Deployment Relevant Through Context Specification
https://arxiv.org/abs/2603.06811 - A Roadmap for Software Testing in Open-Collaborative and AI-Powered Era
https://dl.acm.org/doi/10.1145/3709355
第二梯队:建议作为扩展阅读
- VeriSBOM: Secure and Verifiable SBOM Sharing Via Zero-Knowledge Proofs
http://arxiv.org/abs/2602.13682v1 - Understanding npm Developers’ Practices, Challenges, and Recommendations for Secure Package Development
http://arxiv.org/abs/2601.20240v1 - Building an Open AIBOM Standard in the Wild
https://arxiv.org/html/2510.07070v2 - Formal Analysis and Supply Chain Security for Agentic AI Skills
https://arxiv.org/abs/2603.00195 - A Research Roadmap for Augmenting Software Engineering Processes and Software Products with Generative AI
https://arxiv.org/abs/2510.26275 - A 2030 Roadmap for Software Engineering
https://dl.acm.org/doi/10.1145/3731559
八、最后一句:如果我是你,我接下来会怎么干
如果我是你,我接下来不会去追“哪篇 AI paper 最热”,而会先做三件事:
- 把“维护性衰退—供应链风险”做成自己的主问题定义
- 系统跟踪 SE4AI 里“评估 / 测试 / 治理”这一支
- 持续盯 AIBOM / AI supply chain / agent dependency 这条前沿副线
因为这三件事合起来,既能保证你现在就能做出扎实研究,又能让你在未来 5 年不被时代甩开。
参考来源说明
本报告中的方向判断主要基于 Tavily 对以下来源的真实检索与筛选:
- arXiv 近一年相关论文
- ICSE 2026 会议信息与相关 workshop / track 线索
- TOSEM 2025–2026 路线图与相关文章
- 软件供应链、AI 评估、开源生态与 AI 软件治理相关公开论文页面
整理日期:2026-03-12