Agent-Dominated Contributor Governance: Final Synthesis

核心结论：Contributor-level agent dominance profile 确实解释了 PR-level 特征无法捕捉的治理负担变异。效应稳健、稳定、且具有滞后性。

数据: AIDev dataset (33,596 PRs, 1,797 contributors, 5 agents)
分析轮次: 16轮迭代（I1-I16）
统一数据基座: master_pr_level.csv (30+ 特征列)

1. 可测量性：构建 Contributor-Level Profile

我们从PR-level agent标签聚合出contributor-level指标：

指标	含义	范围
`dominant_agent`	使用最多的agent类型	5类
`dominant_agent_share`	dominant_agent PR占比	[0,1]
`dominance_bucket`	主导性强弱分档	`>=0.90`, `0.67-0.89`, `<0.67`
`distinct_agents_used`	使用过的agent种类数	1-5
`agent_hhi`	集中度指数 (∑share²)	[0,1]
`agent_entropy_nats`	不确定性	[0, ln(5)]

分布: 89位heavy hitters中，OpenAI_Codex占61.8%；34.8%使用多agent；20.2% PR<10但负担高。

2. 治理负担定义：四通道外部触点

我们定义外部治理触点为非作者、非Bot的干预事件：

external_review_events – review状态变化（APPROVED/CHANGES_REQUESTED/COMMENTED）
external_review_comments – line-level review评论
external_pr_discussion_comments – issue-style PR评论
external_timeline_events – 工作流事件（labeled, locked, reopened, review_requested等）

总触点: total_external_touchpoints = sum(above)

3. 核心发现：Burden Beyond Volume

3.1 极度集中

Gini系数: 0.9603
Top 5% heavy hitters 贡献 93.7% 的总触点

3.2 PR-Volume Matched Control

方法: 每位heavy hitter匹配5位相同PR数量bin、相同dominant agent的controls。

结果 (I3, I4):

PR-weighted delta (heavy − control) = +4.1744 触点/PR
100% heavies 的per-PR触点高于其controls
Discussion 和 review 通道贡献主要delta (≈+1.2-1.4)
所有PR量级别（包括<10 PR的轻量贡献者）均呈现正向delta

解读: 即使PR数量相同，“高负担贡献者”身份依然存在——这不是产量问题，而是身份问题。维护者对某些contributor系统性应用更严格的审查。

4. 稳定性：Contributor Identity 是恒定的吗？

方法 (I7): 对≥2 PR的贡献者计算触点的变异系数CV = std/mean。

结果:

中位数CV = 0.8937
整体pooled CV = 2.5596
75%分位数CV ≈ 1.5

解读: 大部分变异在组间（不同贡献者），而非组内（同一贡献者不同PR）。每位贡献者倾向于有相对恒定的治理暴露水平——支持contributor身份稳定性。

5. 滞后效应：历史负担预测未来审查

方法 (I8, I13): 分析31,799个非首PR，outcome=当前PR触点，predictor=prior_mean_touchpoints（最近5 PR平均），控制pr_experience。

结果:

Corr(outcome, prior_mean) = 0.424 (中等正相关)
Corr(outcome, pr_experience) = -0.051 (≈0)
Channel分解 (I13):
- ext_pr_discussion_comments: r=0.403 (最强)
- ext_review_events: r=0.354
- ext_timeline_events: r=0.325

解读: 历史负担独立预测未来审查强度，且discussion通道驱动最强。维护者似乎对之前被干预的贡献者持续关注，尤其在PR讨论中。

6. 通道稳定性：哪个通道最一致？

方法 (I15): 计算每位贡献者各通道的CV，比较分布。

结果 (median CV, 越低越稳定):

ext_pr_discussion_comments: 0.857 (最稳定)
ext_review_events: 1.303
ext_timeline_events: 1.508 (最波动)

解读: Discussion通道在贡献者内部表现最一致；timeline波动最大。结合lag结果，discussion既稳定又强lag，可能是最”信号丰富”的治理通道。

7. Repo 上下文：是否因仓库而异？

数据: 146位多仓库贡献者 (≥2 repos)

ICC (I11): 0.450 – 约45%总方差在贡献者层面，55%部分归因于repo差异。

Reviewer数量相关性: 跨repo，(mean触点, mean distinct_reviewers) 相关系数均值 0.680。

Fixed-effects匹配 (I16): 仅2个repo有足够heavy+controls样本，无法得出普遍结论。但heavy分布稀疏（1385个repo有heavies，但大多数只有1个）本身说明heavy是稀有现象。

解读: Repo context matter。同一贡献者在不同仓库可能经历不同scrutiny。然而heavy的稀疏分布意味着repo-specific策略可能只适用于大型项目。

8. Multi-Agent Heavies：混合agent的影响

方法 (I14): 比较multi-agent heavies (distinct_agents>1) vs single-agent heavies，均匹配single-agent controls。

结果 (per-PR delta):

Single-agent heavies: total delta = 4.8844
Multi-agent heavies: total delta = 2.513
Multi-agent heavies 在review和timeline的delta都更小

解读: 混合agent使用反而与较低的额外负担相关。这反直觉，可能因为：

Multi-agent heavies 本身是更熟练的贡献者，能用工具更高效，减少干预
Selection bias: 只有那些本来负担就低的贡献者才敢尝试多工具
需要进一步因果分析

9. 阈值效应：累计治理的跳变点

方法 (I6): 按累计prior触点分bin，比较后续PR平均触点。

结果:

6-20 → 21-100: ratio = 0.997 (无跳变)
21-100 → 100+: ratio = 1.663 (跳增66%)

解读: 累计治理干预超过100次后，存在非线性跳变，后续PR显著更受scrutiny。可能是”警戒阈值”效应。

10. 方法学反思

Governance surface必须包含discussion和timeline，仅review会漏掉重要干预。
Matched control design 是检验”burden beyond volume”的有效准实验方法。
Lag ≠ 因果：prior_mean可能与未观测PR特征相关；固定效应和匹配已部分缓解。
Repo sparse: heavy hitters在多数repo仅1人，限制了 repo-level inference。
单一可信源 (master_pr_level.csv) 确保了分析一致性。

11. 对 RQ1 的回答

Can contributor-level agent dominance be measured reliably from public GitHub traces, and does it predict review burden beyond PR-level features?

答案: 是，但有 qualifications。

✅ 可测量: 从公开事件可计算dominance profile，指标稳定 (CV低)。

✅ 预测负担: Burden beyond volume 证据强健（I3, I4, I14），且稳健于PR量匹配、agent分层、within-contributor控制。

⚠️ 因果解释需谨慎: 仍可能受未观测混杂（PR复杂度、任务类型、repo成熟度）。Fixed-effects分析受限于数据稀疏性。

✅ 政策意义: 可设计差异化治理流程（如对低PR高burden贡献者提供简化审查，或对高历史负担者加强检查）。Discussion通道是关键抓手。

12. 局限与未来工作

Post-merge risk: AIDev缺乏缺陷数据，无法检验burden是否预测后续质量
Causal identification: 需工具变量或自然实验
Reviewer identity: 当前分析用数量而非身份，dyad-level偏见待挖掘
Heavy definition: 仅用top 5%；可探索不同阈值
Generalizability: AIDev是否代表所有GitHub开源项目？可能偏向活跃repo

13. 产出文件索引

文件	用途
`outputs/master_pr_level.csv`	统一PR-level表（33,596 PRs）
`outputs/observable_cads_v0.csv`	contributor dominance profile
`outputs/heavy_hitter_pr_volume_control_summary.json`	I3核心结果
`outputs/channel_lag_effects_summary.json`	I13 channel-specific lag
`outputs/channel_stability_cv_summary.json`	I15 channel CV
`outputs/multi_agent_channel_profile.json`	I14 multi-agent heavies
`outputs/repo_fixed_effects_summary.json`	I16 repo-level check
`notes/2026-03-30-repo-fixed-effects.md`	I16笔记
`PROJECT_DOCUMENTATION.md`	项目全文档
`ITERATION_LOG.md`	迭代记录

致远：基于这些发现，可以撰写论文 RQ1 部分，重点突出：

新operationalization (4通道触点)
Burden beyond volume 的证据 (matched control)
稳定性与滞后效应
通道分解 (discussion核心)
方法反思与政策含义

下一步: 若有post-merge risk数据，可尝试关联分析；否则进入论文写作阶段。