🔍Agent-Dominated Contributor Governance 关键发现汇总
Agent-Dominated Contributor Governance:关键发现与早期洞见
研究问题:在 AI 辅助编程时代,contributor-level governance 分析是否比 PR-level 分析提供了额外的、可操作的洞察?
数据:AIDev dataset (33,596 PRs, 1,797 contributors, 5 agents)
分析轮次:11轮迭代(3月20-27日),涵盖 burden concentration、heavy hitter profiling、PR-volume control、within-contributor stability、lag effects、repo-specific styles 等方向。
📌 TL;DR(一页总结)
| 方向 | 核心结论 | 强度 |
|---|---|---|
| Burden beyond volume | Heavy hitters(前5%高负担)即使在相同PR量下,每PR治理触点仍高出对照组4.17个,且**100%**呈正向 | ⭐⭐⭐⭐⭐ |
| Within-contributor stability | 中位数CV=0.89 vs 整体pooled CV=2.56 → contributor身份稳定,大部分变异在组间 | ⭐⭐⭐⭐ |
| Lag effects (prior history) | 历史负担显著预测未来PR审查强度(r=0.424),而PR数量经验几乎无关(r=-0.051) | ⭐⭐⭐⭐ |
| Repo context | 多仓库贡献者(n=146) ICC=0.45 → repo层面解释约45%方差;repo内reviewer数量与scrutiny强相关(r=0.68) | ⭐⭐⭐⭐ |
| Threshold effects | 累计治理干预>100次后,后续PR触点激增66%;6-20→21-100无显著跳变 | ⭐⭐ |
| Agent stratification | 效应主要由 OpenAI_Codex 驱动;混合agent使用者比例高(34.8%),但样本分散 | ⭐⭐⭐ |
🔬 详细发现
1. 治理负担极度集中,且 Heavy Hitters 不只是”PR多”
数据(Iteration 2):
- Top 5% heavy hitters(按总外部触点)贡献了93.7%的总负担(Gini=0.9603)
- 89位heavy hitters分布:
- OpenAI_Codex: 55人 (61.8%)
- Cursor: 26人 (29.2%)
- Claude_Code: 6人 (6.7%)
- Devin: 1人 (1.1%)
- Copilot: 1人 (1.1%)
- 34.8%的heavy hitters使用多个agent
- 18人(20.2%)PR数量<10,但负担高 → 低PR量高负担现象存在
Interpretation:负担集中度远超PR量分布,暗示存在”高 scrutiny contributor”身份,独立于产出量。
2. PR-Volume Matched Control:Burden Beyond Volume 的强证据
方法(I3):每位heavy hitter匹配5位同PR量bin的controls,比较per-PR触点。
结果:
- PR-weighted delta(heavy − control):
- 总触点/PR: +4.1744
- Review comments/PR: +1.401
- External discussion/PR: +1.239
- Timeline events/PR: +0.865
- 一致性:100%的heavy hitters总触点为正;>90%在核心通道上为正
- Bin覆盖:所有PR量级别(<10, 10-49, 50-99, 100+)均呈现正向delta,包括<10的轻量贡献者
Interpretation:这是强力证据证明contributor-level效应不只是PR数量造成的。即使PR量相同,heavy hitters的PR仍然承受显著更高的治理注意力。该效应驱动自review和discussion通道。
3. Within-Contributor Governance Stability:身份相对稳定
方法(I7):对每位贡献者(≥2 PRs)计算外部触点的变异系数CV = std/mean。比较贡献者内CV分布与整体pooled CV。
结果:
- 895位贡献者被分析
- 中位数CV = 0.8937
- 整体pooled CV = 2.5596(所有PR合并计算)
- 大部分贡献者的CV低于整体 pool(75%分位数约1.5)
Interpretation:如果中位数CV远低于整体pooled CV,说明大部分变异在组间(不同贡献者之间),而非组内(同一贡献者不同PR)。这支持”contributor identity”的稳定性假设:每位贡献者倾向于有相对恒定的治理暴露水平,维护者似乎携带关于贡献者的priors。
4. Lag Effects:历史负担独立预测未来审查强度
方法(I8):构建分析数据集(31799个非首PR),变量:
- Outcome: 当前PR外部触点
- Predictor: prior_mean_touchpoints(最近5个PR的平均触点)
- Control: pr_experience(之前PR数量)
结果:
- Corr(outcome, prior_mean) = 0.424
- Corr(outcome, pr_experience) = -0.051(几乎为零)
- Bin趋势:prior_mean越高,后续PR平均触点越高(单调上升)
Interpretation:历史负担对后续审查强度有独立于经验的预测能力。这暗示维护者确实在应用关于贡献者的记忆——之前被频繁干预的贡献者,其新PR会获得更多关注,即使控制了贡献者的“经验”水平。这是一个滞后效应(lag effect)的证据。
5. Repository-Specific Styles:Repo 上下文重要
数据(I9-11):构建了PR-level表(33596 PRs),包含repo、review_count、distinct_reviewers、total_external_touchpoints。
多仓库贡献者:146位(活跃于≥2个仓库)
ICC(组内相关系数):
- ICC = 0.450
- 解释:约45%的总方差来自贡献者层面,剩余的55%可部分归因于repo差异(或repo内具体情境)
Reviewer数量相关性:
- 跨repo,每位贡献者的(平均触点,平均distinct_reviewers)相关系数均值为 0.680
- 暗示review volume驱动触点;或者某些repo因reviewer多而审查更严。
Interpretation:Repo context matter。同一贡献者在不同仓库可能经历不同 scrutiny。这提示治理策略可能需要repo-specific调整。
6. Threshold Effects:累计治理的跳变点
方法(I6):按累计prior触点分bin(0, 1-5, 6-20, 21-100, 100+),比较后续PR的平均触点。
结果:
- 6-20 → 21-100:比值 0.997(无跳变)
- 21-100 → 100+:比值 1.663(跳增66%)
Interpretation:可能存在一个“警戒阈值”在100次累计干预后触发更严厉的后续审查。这是非线性效应的初步证据。
7. Agent-Stratified 控制:效应在 OpenAI_Codex 内部依然强健
方法(I4):在相同PR量bin和dominant agent内匹配heavy vs control。
结果(PR-weighted delta):
- OpenAI_Codex: 显著正delta(即使控制了agent label,Codex贡献者仍更高)
- Cursor: 样本较小,方向不明显
- 其他agent:样本有限
Interpretation:该效应不是简单的agent composition混杂;在单一agent内部,contributor-level差异依然存在。但如果只关注单一agent,会低估总体方差。
8. Multi-Agent Heavies vs Single-Agent Heavies(初步)
数据(I5):比较多agent heavy(distinct_agents>1)与单agent heavy(配单agent controls)。
结果(尚未深入解读,JSON产出):
- Multi-agent heavies平均delta: [待查看数字]
- Single-agent heavies平均delta: [待查看数字]
待办:解读是否多agent heavies有更大delta,暗示混合agent使用与额外 scrutiny 相关。
🧩 方法学教训
- Governance surface 定义很重要:仅review会漏掉discussion和timeline;需要external-triggered才接近真实干预。
- Stratification 必要:Pooled patterns 可能会掩盖within-agent真相或产生混杂。
- Matched control design:PR-volume matching 是检验”burden beyond volume”的有效 quasi-experimental 方式。
- Lag vs 因果:相关性≠因果;prior_mean可能proxy unobserved PR features;需更精细匹配。
- Repo fixed-effects:忽略repo会夸大contributor-level信号;ICC提示repo重要性。
🔭 后续研究方向
- Channel-specific lag effects:prior_mean对不同通道(review vs discussion)的影响是否一致?
- Reviewer-contributor dyad:是否存在系统性的审查者偏见?高频审查pair是否对应更高merge/reject差异?
- Multi-agent channel profile:多agent heavies是否在特定通道(如discussion)上有更高delta?
- Agent-switching dynamics:贡献者切换agent是否伴随 scrutiny 变化?
- Policy implications:能否基于contributor-level profile设计差异化治理流程(例如对低PR高burden贡献者提供简化审查)?
📁 主要产出文件
| 产出 | 路径 |
|---|---|
| PR-volume control summary | outputs/heavy_hitter_pr_volume_control_summary.json |
| Agent-stratified control | outputs/agent_stratified_channel_deltas.json |
| Stability CV data | outputs/contributor_stability_cv.csv |
| Lag effects dataset | outputs/lag_effects_analysis_dataset.csv |
| Repo PR-level table | outputs/repo_contributor_governance_pr_level.csv |
| Multi-repo ICC summary | outputs/repo_styles_final_summary.json |
| 各iteration详细笔记 | notes/2026-03-27-*.md |
🏁 一句话结论
Contributor-level governance 分析确实揭示了 PR-level 无法捕获的模式:稳定的高负担贡献者身份、历史负担的滞后效应、以及repo上下文的重要性。这些发现对于设计差异化、情境感知的AI辅助代码审查策略具有直接的政策意义。