📊Agent-Dominated Contributor Governance: Final Synthesis
Agent-Dominated Contributor Governance: Final Synthesis
核心结论:Contributor-level agent dominance profile 确实 解释了 PR-level 特征无法捕捉的治理负担变异。效应稳健、稳定、且具有滞后性。
数据: AIDev dataset (33,596 PRs, 1,797 contributors, 5 agents)
分析轮次: 16轮迭代(I1-I16)
统一数据基座: master_pr_level.csv (30+ 特征列)
1. 可测量性:构建 Contributor-Level Profile
我们从PR-level agent标签聚合出contributor-level指标:
| 指标 | 含义 | 范围 |
|---|---|---|
dominant_agent | 使用最多的agent类型 | 5类 |
dominant_agent_share | dominant_agent PR占比 | [0,1] |
dominance_bucket | 主导性强弱分档 | >=0.90, 0.67-0.89, <0.67 |
distinct_agents_used | 使用过的agent种类数 | 1-5 |
agent_hhi | 集中度指数 (∑share²) | [0,1] |
agent_entropy_nats | 不确定性 | [0, ln(5)] |
分布: 89位heavy hitters中,OpenAI_Codex占61.8%;34.8%使用多agent;20.2% PR<10但负担高。
2. 治理负担定义:四通道外部触点
我们定义外部治理触点为非作者、非Bot的干预事件:
external_review_events– review状态变化(APPROVED/CHANGES_REQUESTED/COMMENTED)external_review_comments– line-level review评论external_pr_discussion_comments– issue-style PR评论external_timeline_events– 工作流事件(labeled, locked, reopened, review_requested等)
总触点: total_external_touchpoints = sum(above)
3. 核心发现:Burden Beyond Volume
3.1 极度集中
- Gini系数: 0.9603
- Top 5% heavy hitters 贡献 93.7% 的总触点
3.2 PR-Volume Matched Control
方法: 每位heavy hitter匹配5位相同PR数量bin、相同dominant agent的controls。
结果 (I3, I4):
- PR-weighted delta (heavy − control) = +4.1744 触点/PR
- 100% heavies 的per-PR触点高于其controls
- Discussion 和 review 通道贡献主要delta (≈+1.2-1.4)
- 所有PR量级别(包括<10 PR的轻量贡献者)均呈现正向delta
解读: 即使PR数量相同,“高负担贡献者”身份依然存在——这不是产量问题,而是身份问题。维护者对某些contributor系统性应用更严格的审查。
4. 稳定性:Contributor Identity 是恒定的吗?
方法 (I7): 对≥2 PR的贡献者计算触点的变异系数CV = std/mean。
结果:
- 中位数CV = 0.8937
- 整体pooled CV = 2.5596
- 75%分位数CV ≈ 1.5
解读: 大部分变异在组间(不同贡献者),而非组内(同一贡献者不同PR)。每位贡献者倾向于有相对恒定的治理暴露水平——支持contributor身份稳定性。
5. 滞后效应:历史负担预测未来审查
方法 (I8, I13): 分析31,799个非首PR,outcome=当前PR触点,predictor=prior_mean_touchpoints(最近5 PR平均),控制pr_experience。
结果:
- Corr(outcome, prior_mean) = 0.424 (中等正相关)
- Corr(outcome, pr_experience) = -0.051 (≈0)
- Channel分解 (I13):
- ext_pr_discussion_comments: r=0.403 (最强)
- ext_review_events: r=0.354
- ext_timeline_events: r=0.325
解读: 历史负担独立预测未来审查强度,且discussion通道驱动最强。维护者似乎对之前被干预的贡献者持续关注,尤其在PR讨论中。
6. 通道稳定性:哪个通道最一致?
方法 (I15): 计算每位贡献者各通道的CV,比较分布。
结果 (median CV, 越低越稳定):
- ext_pr_discussion_comments: 0.857 (最稳定)
- ext_review_events: 1.303
- ext_timeline_events: 1.508 (最波动)
解读: Discussion通道在贡献者内部表现最一致;timeline波动最大。结合lag结果,discussion既稳定又强lag,可能是最”信号丰富”的治理通道。
7. Repo 上下文:是否因仓库而异?
数据: 146位多仓库贡献者 (≥2 repos)
ICC (I11): 0.450 – 约45%总方差在贡献者层面,55%部分归因于repo差异。
Reviewer数量相关性: 跨repo,(mean触点, mean distinct_reviewers) 相关系数均值 0.680。
Fixed-effects匹配 (I16): 仅2个repo有足够heavy+controls样本,无法得出普遍结论。但heavy分布稀疏(1385个repo有heavies,但大多数只有1个)本身说明heavy是稀有现象。
解读: Repo context matter。同一贡献者在不同仓库可能经历不同scrutiny。然而heavy的稀疏分布意味着repo-specific策略可能只适用于大型项目。
8. Multi-Agent Heavies:混合agent的影响
方法 (I14): 比较multi-agent heavies (distinct_agents>1) vs single-agent heavies,均匹配single-agent controls。
结果 (per-PR delta):
- Single-agent heavies: total delta = 4.8844
- Multi-agent heavies: total delta = 2.513
- Multi-agent heavies 在review和timeline的delta都更小
解读: 混合agent使用反而与较低的额外负担相关。这反直觉,可能因为:
- Multi-agent heavies 本身是更熟练的贡献者,能用工具更高效,减少干预
- Selection bias: 只有那些本来负担就低的贡献者才敢尝试多工具
- 需要进一步因果分析
9. 阈值效应:累计治理的跳变点
方法 (I6): 按累计prior触点分bin,比较后续PR平均触点。
结果:
- 6-20 → 21-100: ratio = 0.997 (无跳变)
- 21-100 → 100+: ratio = 1.663 (跳增66%)
解读: 累计治理干预超过100次后,存在非线性跳变,后续PR显著更受scrutiny。可能是”警戒阈值”效应。
10. 方法学反思
- Governance surface必须包含discussion和timeline,仅review会漏掉重要干预。
- Matched control design 是检验”burden beyond volume”的有效准实验方法。
- Lag ≠ 因果:prior_mean可能与未观测PR特征相关;固定效应和匹配已部分缓解。
- Repo sparse: heavy hitters在多数repo仅1人,限制了 repo-level inference。
- 单一可信源 (
master_pr_level.csv) 确保了分析一致性。
11. 对 RQ1 的回答
Can contributor-level agent dominance be measured reliably from public GitHub traces, and does it predict review burden beyond PR-level features?
答案: 是,但有 qualifications。
✅ 可测量: 从公开事件可计算dominance profile,指标稳定 (CV低)。
✅ 预测负担: Burden beyond volume 证据强健(I3, I4, I14),且稳健于PR量匹配、agent分层、within-contributor控制。
⚠️ 因果解释需谨慎: 仍可能受未观测混杂(PR复杂度、任务类型、repo成熟度)。Fixed-effects分析受限于数据稀疏性。
✅ 政策意义: 可设计差异化治理流程(如对低PR高burden贡献者提供简化审查,或对高历史负担者加强检查)。Discussion通道是关键抓手。
12. 局限与未来工作
- Post-merge risk: AIDev缺乏缺陷数据,无法检验burden是否预测后续质量
- Causal identification: 需工具变量或自然实验
- Reviewer identity: 当前分析用数量而非身份,dyad-level偏见待挖掘
- Heavy definition: 仅用top 5%;可探索不同阈值
- Generalizability: AIDev是否代表所有GitHub开源项目?可能偏向活跃repo
13. 产出文件索引
| 文件 | 用途 |
|---|---|
outputs/master_pr_level.csv | 统一PR-level表(33,596 PRs) |
outputs/observable_cads_v0.csv | contributor dominance profile |
outputs/heavy_hitter_pr_volume_control_summary.json | I3核心结果 |
outputs/channel_lag_effects_summary.json | I13 channel-specific lag |
outputs/channel_stability_cv_summary.json | I15 channel CV |
outputs/multi_agent_channel_profile.json | I14 multi-agent heavies |
outputs/repo_fixed_effects_summary.json | I16 repo-level check |
notes/2026-03-30-repo-fixed-effects.md | I16笔记 |
PROJECT_DOCUMENTATION.md | 项目全文档 |
ITERATION_LOG.md | 迭代记录 |
致远:基于这些发现,可以撰写论文 RQ1 部分,重点突出:
- 新operationalization (4通道触点)
- Burden beyond volume 的证据 (matched control)
- 稳定性与滞后效应
- 通道分解 (discussion核心)
- 方法反思与政策含义
下一步: 若有post-merge risk数据,可尝试关联分析;否则进入论文写作阶段。