研究提案 v5：从精读论文出发，重写 Agent-Dominated Contributor 的研究 gap

一句话结论
我把这批 2025–2026 年最关键的论文 PDF 都下到本地，并做了针对性精读。读完之后，我更确定一件事：
现有工作已经把 AI 参与软件开发研究推进到了 file/function、PR、review、post-merge 这些层级，但 contributor-level governance 仍然是一个明显空位。
如果要做一篇更像 ICSE/FSE 的论文，最值得写清楚的 gap 不是“没人研究 AI coding agents”，而是：
维护者面对的治理对象不是独立 PR，而是会持续以 agent-heavy 模式贡献的一类 contributor；这一层目前还没有被清楚建模。

0. 这次我实际做了什么

不是只看摘要，而是做了下面这条线：

选出一批与题目最相关的 2025–2026 核心论文；
把 PDF 全部下载到本地；
用 pdftotext 抽取全文文本；
重点读 abstract + intro + research questions +主要结果；
不追求“每篇都讲一遍”，而是只保留一个问题：

这些论文分别已经解决了什么？还剩什么没解决？

这批实际精读的论文包括：

AIDev
Agentic Much?
Comparing AI Coding Agents
Why Are AI Agent–Involved PRs Remain Unmerged?
Where Do AI Coding Agents Fail?
Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
On Autopilot? Human–AI Teaming and Review Practices in Open Source
Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests
AI builds, We Analyze
Beyond Bug Fixes
What to Cut?
GIST
AI Code in the Wild
CR-Bench

1. 精读后的第一判断：现有工作已经形成了四层阶梯

如果把这批论文放在一起看，现在这个方向其实已经有了一条很清楚的研究阶梯。

第一层：可观测性与 adoption

这里的代表是：

AIDev
Agentic Much?

它们已经回答了：

agentic PR 在 GitHub 上是否真实存在？
规模有多大？
是否留下足够多的 trace？
commit / PR 层面有哪些显著行为变化？

也就是说，“这是不是一个真实现象” 这一步已经做完了。

第二层：PR-level outcome 与 review friction

这里的代表是：

Comparing AI Coding Agents
Why Are AI Agent–Involved PRs Remain Unmerged?
Where Do AI Coding Agents Fail?
Early-Stage Prediction of Review Effort
Message-Code Inconsistency

它们已经回答了：

哪些 agent PR 更容易被接受？
哪些任务类型 merge 更高？
哪些 PR 更容易失败？
review effort 能不能早期预测？
AI 生成的 PR message 会不会误导 reviewer？

也就是说，“单个 agentic PR 在 review 流程里会发生什么” 这一步也已经很成熟了。

第三层：post-merge quality 与 layer-specific risk

这里的代表是：

AI builds, We Analyze
Beyond Bug Fixes
What to Cut?
GIST
AI Code in the Wild

它们已经回答了：

merge 不等于高质量；
build / workflow / config 是高风险层；
agentic PR 会制造 reviewer 的“删除负担”；
AI 相关技术债会在 comment 中留下痕迹；
AI code 在 glue/tests/docs 中集中，在 core logic 中较少。

也就是说，“agent 产物在代码质量和安全上会带来什么后果” 这一步也已经开始铺开了。

第四层：review agent / SE4AI evaluation framing

这里的代表是：

CR-Bench
以及更广义的 SE4AI testing / evaluation / governance 路线图

它们已经开始回答：

AI code review agent 应该怎么评估？
review false positives 为什么重要？
为什么 code review 是一个需要单独建模的 AI software workflow？

这说明社区已经不再只把 AI 当作 patch 生成器，而开始把它当作进入开发流程的系统角色来看。

2. 这批论文真正没做到的，不是“还没研究 AI”，而是“没上推到 contributor 层”

这是我读完之后最明确的判断。

2.1 现在几乎所有工作都在“单次贡献”层面看问题

即便这些论文已经很有价值，但它们大多还在下面这些对象上做分析：

一个 file / function
一个 commit
一个 PR
一次 merge / reject
一个 post-merge patch

换句话说，单位还是 artifact / event。

但维护者的真实经验并不是这样组织的。

维护者经常面对的是：

这个 contributor 最近连续提了很多 agent-heavy PR；这些 PR 单个看不一定都很糟，但整体上它们制造了 review overload、返工、follow-up fixes、低信任感。

这就是现有文献没真正抓住的一层：

contributor-level governance object

2.2 现有工作已经有 contributor-level 的零件，但没有 contributor-level 的主问题

这是更细一点的说法。

AIDev 已经有 developer-level metadata

它不是没有 contributor 信息；相反，它已经有 developer-level artifact。

Agentic Much? 已经看到 adoption 跨开发者与项目扩散

它也不是没碰到 contributor，只是主问题仍然是 adoption。

On Autopilot? 已经看 human-AI teaming

它已经靠近 contributor / ownership / review interaction 了，但重点仍然更像“项目里如何与 AI PR 互动”。

Early-Stage Prediction of Review Effort 已经看 maintainer attention tax

但分析单位还是 PR，而不是 contributor profile。

AI Code in the Wild 已经能打 file/function 级 detector

但仍没有上推成“某个 contributor 的持续贡献画像”。

所以真正的 gap 不是“没人有数据”，也不是“没人研究 review”。
而是：

大家已经把贡献者层所需的零件拼得差不多了，但还没有把 contributor-level governance 作为论文主问题来立起来。

这就是一个很像顶会论文的机会：

不是从零造轮子
而是把已有零件提升成一个更关键的分析层级

3. 精读后的第二判断：maintainer 真正的痛点不是“AI 会不会写”，而是“AI 把负担转移给 reviewer”

这是从好几篇论文里反复出现的一条线。

3.1 Early-Stage Prediction of Review Effort 提得最直白

这篇直接写出了一个关键词：

attention tax

它的核心不是“AI PR merge 不 merge”，而是：

agent 可能很擅长产出，但当它们在主观反馈、迭代 refinement 上卡住时，维护者需要承担额外的交互与判断成本。

这和传统 code review automation 问题已经不一样了。
传统是“review 一段代码”；现在变成了：

review 一段代码
review 一段可能不可信的 PR narration
判断哪些内容其实最终会被删
判断 contributor 是否会继续跟进反馈

这就是维护者视角的 bottleneck。

3.2 What to Cut? 说明 reviewer burden 不是虚的，而是能被量化的

这篇最有意思的地方是，它没有讨论“代码最终对不对”，而是在问：

哪些方法最终会在 review 中被删掉？

这件事表面很小，但其实非常像 maintainer 的日常痛点：

实现者省了时间
reviewer 却多了负担

所以 agentic development 真正重写的，未必只是实现过程，而是：

implementation burden 与 verification burden 的重新分配。

这为 contributor-level governance 论文提供了非常硬的动机：

如果某些 contributor 持续以 agent-heavy 模式工作，
那他们可能不是“坏”，
但他们很可能在持续向 reviewer 外包认知负担。

这比“低质量代码”四个字精确得多，也更像软件工程问题。

3.3 Message-Code Inconsistency 和 On Autopilot? 又补了一刀

这两篇合起来，给了两个特别重要的信号：

AI PR 的叙述不一定可信
message-code inconsistency 会降低 reviewer trust，拖慢 merge。
AI PR 的 review pattern 与普通 human PR 不同
AI-coauthored PR 会更快 merge、反馈更少，且很多来自没有 ownership 的 contributor。

这两点放在一起，其实非常危险：

来自 non-owner
narration 可能不准
feedback 却更少
merge 可能还更快

这正是 contributor-level governance 应该研究的地方。

因为它指向的问题已经不是：

某个 PR 做得好不好

而是：

维护者是否正在对某类 contributor 形成一种“低反馈、快合并、低 ownership”的新治理模式？

这就是一个很像 ICSE/FSE 的研究问题。

4. 精读后的第三判断：真正值得做的不是“AI contributor detector”，而是“contributor-level risk model”

这是 proposal 需要收缩的关键。

4.1 为什么“AI contributor detector”不够好

如果论文主张写成：

我们检测一个 GitHub 账号是不是 AI / 被 AI 主导。

那会立刻遇到几个问题：

定义太粗：真实 contributor 是混合体。
伦理风险大：像 policing / moderation。
学术价值偏工具化：更像 classifier demo。

这会让 reviewer 很容易说：

so what？
为什么这是软件工程贡献，而不是 detection engineering？

4.2 更好的写法是 contributor-level risk model

如果改成：

我们研究 contributor-level agent dominance 是否构成一种可解释的 review / quality risk signal。

整个题目的味道就变了。

它就不再是：

判断谁是 AI

而是：

contributor 在多大程度上表现出 agent-heavy profile；
这种 profile 是否对应更高 review burden；
哪些仓库治理机制能吸收或缓解这类风险。

这样写的好处是：

第一，定义更贴近真实世界

contributor 不是 AI / 非 AI 二元，而是处于连续谱上：

human-led
AI-assisted
human-supervised agent-heavy
agent-dominated

第二，更贴合 maintainer 真实问题

维护者不是真的想知道“这个人是不是 AI”，而是想知道：

这个 contributor 的贡献需要多高审查优先级？
是否应要求更多 tests / smaller PRs / maintainer review？

第三，更符合软件工程口味

这样问题就从检测转成了：

workflow governance
review triage
quality risk mitigation

这三个词比“AI 账号识别”更像 ICSE/FSE 论文。

5. 现在可以把 gap 说得很清楚了

这是这次 v5 最重要的部分。

5.1 错误写法：模糊 gap

下面这些写法都不够好：

现有工作还没有研究 AI coding agents 对开源的影响。
还没有人研究 GitHub 上的 AI contributor。
还没有成熟方法检测 agent-dominated contributor。

为什么不好？因为 reviewer 一眼就会反驳：

adoption 有了
PR acceptance 有了
failed PR 有了
post-merge quality 有了
code-level detection 也有了

这会让你的 gap 显得不诚实。

5.2 正确写法：层级 gap

更强的写法应该是：

现有工作主要在 file/function、PR、review 和 post-merge 这些 artifact/event 层级理解 AI coding agents 的影响，但维护者实际面对的治理对象并不是独立 PR，而是会持续以 agent-heavy 模式贡献的一类 contributor。现有文献尚未将 contributor-level agent dominance 建模为一个独立的 governance layer，也尚未系统检验它是否能解释 review burden、post-merge risk 以及 repository governance 的缓解效果。

这段话有几个优点：

承认已有工作，不装作领域是空白；
明确指出缺的是哪一层，不是泛泛说“还没人研究”；
把 maintainer pain point 和理论空位绑在一起；
自然引出你的研究问题。

这就是现在最像顶会风格的 gap 写法。

5.3 再压缩成一句 reviewer 容易记住的话

如果要把它压成一句最锋利的话，我会写成：

The literature has learned to study agentic pull requests, but maintainers do not govern pull requests in isolation—they govern contributors.

中文就是：

现有文献已经会研究 agentic PR，但维护者真正治理的不是孤立 PR，而是 contributor。

我觉得这句话就是这篇 proposal 最该抓住的 punchline。

6. v5 版本的 proposal 主问题

基于上面的精读，我会把 proposal 的主问题压成下面四个。

RQ1. Can contributor-level agent dominance be measured reliably from public GitHub traces?

这里不是做完美 detector，而是做一个 可解释、可复现、分维度的 contributor profile。

RQ2. Does contributor-level agent dominance explain review burden beyond PR-level features?

这一步是整个 proposal 的关键。

因为现有很多工作已经看 PR-level：

patch size
file count
task type
CI status
PR narration

你真正要证明的是：

即使控制这些 PR-level 特征，contributor-level dominance 仍然提供额外解释力。

如果这点成立，你的论文就不是在重复 PR-level prediction，而是在补一个新的治理层。

RQ3. Are the risks associated with agent-dominated contributors concentrated in specific layers or task types?

这一问是从：

Comparing AI Coding Agents
AI builds, We Analyze
AI Code in the Wild

这些论文里学来的。

也就是说，风险很可能不是均匀的，而集中在：

docs
tests
build / workflow / config
glue code
fix vs feature vs docs task types

这会让论文更细，也更有 engineering meaning。

RQ4. Which repository governance mechanisms mitigate the review and quality risks of agent-dominated contributors?

这是最接近 ICSE/FSE taste 的一问。
因为它把论文从 observation 拉向了 governance implication。

如果最后只能得到“高 dominance contributor 风险更高”，论文就还不够。
真正更好的结果是：

在弱治理仓库里，CAD contributor 的 review burden 更高；
在强治理仓库里，这种差异显著收缩；
某些 policy（比如 mandatory review / tests / CODEOWNERS）特别有效。

这才是 maintainer 真能用的 insight。

7. 为什么这个 v5 比 v4 更强？

v4 已经有一个不错的直觉，但还偏“我觉得这个题值”。

v5 的进步在于：

第一，gap 更诚实了

它不再装作“没什么人研究这个方向”，而是明确承认：

adoption 有了
PR-level outcome 有了
quality risk 有了
review benchmark 也有了

然后再指出真正缺的是 contributor-level governance layer。

这会让 reviewer 更容易买账。

第二，maintainer pain point 更具体了

v4 更像在说“agent-dominated contributor 可能重要”；
v5 则更清楚地说明：

reviewer burden 被上移了；
implementation burden 与 verification burden 重新分配了；
attention tax 是真实存在的；
maintainer 不是在治理 PR，而是在治理持续贡献模式。

这就更贴近实际软件工程问题。

第三，论文 identity 更清楚了

v5 不再像“做个 detector”，而更像：

一篇关于 contributor-level governance blind spot 的 empirical software engineering 论文。

这就是味道上的区别。

8. 这一版我建议的标题

标题 A

From Agentic Pull Requests to Contributor Governance: Measuring Agent-Dominated Contributors on GitHub

标题 B

Maintainers Govern Contributors, Not Pull Requests: Detecting Agent-Dominated Contributors for Review Triage

标题 C

The Missing Governance Layer in Agentic Software Engineering: Contributor-Level Agent Dominance on GitHub

如果偏论文味，我最喜欢 标题 C。
如果偏 proposal/report 味，我更推荐 标题 A。

9. 最后一句判断

这批论文精读下来，最值得记住的不是“AI coding agents 很火”，而是：

社区已经会研究 agentic PR，但还没有认真研究 maintainer 如何面对持续以 agent-heavy 模式贡献的一类 contributor。

这正是 proposal 现在最该抓住的 gap。
不是更大的 gap，而是更准的 gap。

而且这个 gap 的好处是：

它承接已有文献，而不是另起炉灶；
它直接贴 maintainer / repository governance 痛点；
它有清楚的 ICSE/FSE 味道；
它后面还能自然接 review policy、quality risk、supply chain exposure。

所以如果要继续推进这个方向，我认为 v5 之后最值得做的，不再是继续发散想法，而是：

把 contributor-level dominance 的 operationalization 钉死；
明确 PR-level baseline 和 contributor-level 增量解释力怎么检验；
把 governance variables 设计清楚；
提前把 ethics 和 fairness 雷区写好。

这时候 proposal 就会从“方向挺有意思”进入“真的可以开干”。

附：本次精读实际用到的核心论文

AIDev: Studying AI Coding Agents on GitHub
http://arxiv.org/abs/2602.09185v1
Agentic Much? Adoption of Coding Agents on GitHub
http://arxiv.org/abs/2601.18341v1
Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
http://arxiv.org/abs/2602.08915v1
Why Are AI Agent–Involved Pull Requests (Fix-Related) Remain Unmerged?
http://arxiv.org/abs/2602.00164v1
Where Do AI Coding Agents Fail?
http://arxiv.org/abs/2601.15195v1
Early-Stage Prediction of Review Effort in AI-Generated Pull Requests
http://arxiv.org/abs/2601.00753v2
On Autopilot? An Empirical Study of Human–AI Teaming and Review Practices in Open Source
http://arxiv.org/abs/2601.13754v1
Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests
http://arxiv.org/abs/2601.04886v2
AI builds, We Analyze
http://arxiv.org/abs/2601.16839v1
Beyond Bug Fixes
http://arxiv.org/abs/2601.20109v1
What to Cut?
http://arxiv.org/abs/2602.17091v1
“TODO: Fix the Mess Gemini Created”
http://arxiv.org/abs/2601.07786v1
AI Code in the Wild
http://arxiv.org/abs/2512.18567v1
CR-Bench
http://arxiv.org/abs/2603.11078v1