Agent-Dominated Contributor Governance：关键发现与早期洞见

研究问题：在 AI 辅助编程时代，contributor-level governance 分析是否比 PR-level 分析提供了额外的、可操作的洞察？

数据：AIDev dataset (33,596 PRs, 1,797 contributors, 5 agents)

分析轮次：11轮迭代（3月20-27日），涵盖 burden concentration、heavy hitter profiling、PR-volume control、within-contributor stability、lag effects、repo-specific styles 等方向。

📌 TL;DR（一页总结）

方向	核心结论	强度
Burden beyond volume	Heavy hitters（前5%高负担）即使在相同PR量下，每PR治理触点仍高出对照组4.17个，且100%呈正向	⭐⭐⭐⭐⭐
Within-contributor stability	中位数CV=0.89 vs 整体pooled CV=2.56 → contributor身份稳定，大部分变异在组间	⭐⭐⭐⭐
Lag effects (prior history)	历史负担显著预测未来PR审查强度（r=0.424），而PR数量经验几乎无关（r=-0.051）	⭐⭐⭐⭐
Repo context	多仓库贡献者（n=146） ICC=0.45 → repo层面解释约45%方差；repo内reviewer数量与scrutiny强相关（r=0.68）	⭐⭐⭐⭐
Threshold effects	累计治理干预>100次后，后续PR触点激增66%；6-20→21-100无显著跳变	⭐⭐
Agent stratification	效应主要由 OpenAI_Codex 驱动；混合agent使用者比例高（34.8%），但样本分散	⭐⭐⭐

🔬 详细发现

1. 治理负担极度集中，且 Heavy Hitters 不只是”PR多”

数据（Iteration 2）：

Top 5% heavy hitters（按总外部触点）贡献了93.7%的总负担（Gini=0.9603）
89位heavy hitters分布：
- OpenAI_Codex: 55人 (61.8%)
- Cursor: 26人 (29.2%)
- Claude_Code: 6人 (6.7%)
- Devin: 1人 (1.1%)
- Copilot: 1人 (1.1%)
34.8%的heavy hitters使用多个agent
18人（20.2%）PR数量<10，但负担高 → 低PR量高负担现象存在

Interpretation：负担集中度远超PR量分布，暗示存在”高 scrutiny contributor”身份，独立于产出量。

2. PR-Volume Matched Control：Burden Beyond Volume 的强证据

方法（I3）：每位heavy hitter匹配5位同PR量bin的controls，比较per-PR触点。

结果：

PR-weighted delta（heavy − control）：
- 总触点/PR: +4.1744
- Review comments/PR: +1.401
- External discussion/PR: +1.239
- Timeline events/PR: +0.865
一致性：100%的heavy hitters总触点为正；>90%在核心通道上为正
Bin覆盖：所有PR量级别（<10, 10-49, 50-99, 100+）均呈现正向delta，包括<10的轻量贡献者

Interpretation：这是强力证据证明contributor-level效应不只是PR数量造成的。即使PR量相同，heavy hitters的PR仍然承受显著更高的治理注意力。该效应驱动自review和discussion通道。

3. Within-Contributor Governance Stability：身份相对稳定

方法（I7）：对每位贡献者（≥2 PRs）计算外部触点的变异系数CV = std/mean。比较贡献者内CV分布与整体pooled CV。

结果：

895位贡献者被分析
中位数CV = 0.8937
整体pooled CV = 2.5596（所有PR合并计算）
大部分贡献者的CV低于整体 pool（75%分位数约1.5）

Interpretation：如果中位数CV远低于整体pooled CV，说明大部分变异在组间（不同贡献者之间），而非组内（同一贡献者不同PR）。这支持”contributor identity”的稳定性假设：每位贡献者倾向于有相对恒定的治理暴露水平，维护者似乎携带关于贡献者的priors。

4. Lag Effects：历史负担独立预测未来审查强度

方法（I8）：构建分析数据集（31799个非首PR），变量：

Outcome: 当前PR外部触点
Predictor: prior_mean_touchpoints（最近5个PR的平均触点）
Control: pr_experience（之前PR数量）

结果：

Corr(outcome, prior_mean) = 0.424
Corr(outcome, pr_experience) = -0.051（几乎为零）
Bin趋势：prior_mean越高，后续PR平均触点越高（单调上升）

Interpretation：历史负担对后续审查强度有独立于经验的预测能力。这暗示维护者确实在应用关于贡献者的记忆——之前被频繁干预的贡献者，其新PR会获得更多关注，即使控制了贡献者的“经验”水平。这是一个滞后效应（lag effect）的证据。

5. Repository-Specific Styles：Repo 上下文重要

数据（I9-11）：构建了PR-level表（33596 PRs），包含repo、review_count、distinct_reviewers、total_external_touchpoints。

多仓库贡献者：146位（活跃于≥2个仓库）

ICC（组内相关系数）：

ICC = 0.450
解释：约45%的总方差来自贡献者层面，剩余的55%可部分归因于repo差异（或repo内具体情境）

Reviewer数量相关性：

跨repo，每位贡献者的（平均触点，平均distinct_reviewers）相关系数均值为 0.680
暗示review volume驱动触点；或者某些repo因reviewer多而审查更严。

Interpretation：Repo context matter。同一贡献者在不同仓库可能经历不同 scrutiny。这提示治理策略可能需要repo-specific调整。

6. Threshold Effects：累计治理的跳变点

方法（I6）：按累计prior触点分bin（0, 1-5, 6-20, 21-100, 100+），比较后续PR的平均触点。

结果：

6-20 → 21-100：比值 0.997（无跳变）
21-100 → 100+：比值 1.663（跳增66%）

Interpretation：可能存在一个“警戒阈值”在100次累计干预后触发更严厉的后续审查。这是非线性效应的初步证据。

7. Agent-Stratified 控制：效应在 OpenAI_Codex 内部依然强健

方法（I4）：在相同PR量bin和dominant agent内匹配heavy vs control。

结果（PR-weighted delta）：

OpenAI_Codex: 显著正delta（即使控制了agent label，Codex贡献者仍更高）
Cursor: 样本较小，方向不明显
其他agent：样本有限

Interpretation：该效应不是简单的agent composition混杂；在单一agent内部，contributor-level差异依然存在。但如果只关注单一agent，会低估总体方差。

8. Multi-Agent Heavies vs Single-Agent Heavies（初步）

数据（I5）：比较多agent heavy（distinct_agents>1）与单agent heavy（配单agent controls）。

结果（尚未深入解读，JSON产出）：

Multi-agent heavies平均delta: [待查看数字]
Single-agent heavies平均delta: [待查看数字]

待办：解读是否多agent heavies有更大delta，暗示混合agent使用与额外 scrutiny 相关。

🧩 方法学教训

Governance surface 定义很重要：仅review会漏掉discussion和timeline；需要external-triggered才接近真实干预。
Stratification 必要：Pooled patterns 可能会掩盖within-agent真相或产生混杂。
Matched control design：PR-volume matching 是检验”burden beyond volume”的有效 quasi-experimental 方式。
Lag vs 因果：相关性≠因果；prior_mean可能proxy unobserved PR features；需更精细匹配。
Repo fixed-effects：忽略repo会夸大contributor-level信号；ICC提示repo重要性。

🔭 后续研究方向

Channel-specific lag effects：prior_mean对不同通道（review vs discussion）的影响是否一致？
Reviewer-contributor dyad：是否存在系统性的审查者偏见？高频审查pair是否对应更高merge/reject差异？
Multi-agent channel profile：多agent heavies是否在特定通道（如discussion）上有更高delta？
Agent-switching dynamics：贡献者切换agent是否伴随 scrutiny 变化？
Policy implications：能否基于contributor-level profile设计差异化治理流程（例如对低PR高burden贡献者提供简化审查）？

📁 主要产出文件

产出	路径
PR-volume control summary	`outputs/heavy_hitter_pr_volume_control_summary.json`
Agent-stratified control	`outputs/agent_stratified_channel_deltas.json`
Stability CV data	`outputs/contributor_stability_cv.csv`
Lag effects dataset	`outputs/lag_effects_analysis_dataset.csv`
Repo PR-level table	`outputs/repo_contributor_governance_pr_level.csv`
Multi-repo ICC summary	`outputs/repo_styles_final_summary.json`
各iteration详细笔记	`notes/2026-03-27-*.md`

🏁 一句话结论

Contributor-level governance 分析确实揭示了 PR-level 无法捕获的模式：稳定的高负担贡献者身份、历史负担的滞后效应、以及repo上下文的重要性。这些发现对于设计差异化、情境感知的AI辅助代码审查策略具有直接的政策意义。