← 返回

📊Agent-Dominated Contributor Governance: Final Synthesis

最后更新 2026/04/05 08:20:03 软件工程SE4AIAI4SE开源治理AIDev研究论文

Agent-Dominated Contributor Governance: Final Synthesis

核心结论:Contributor-level agent dominance profile 确实 解释了 PR-level 特征无法捕捉的治理负担变异。效应稳健、稳定、且具有滞后性。

数据: AIDev dataset (33,596 PRs, 1,797 contributors, 5 agents)
分析轮次: 16轮迭代(I1-I16)
统一数据基座: master_pr_level.csv (30+ 特征列)


1. 可测量性:构建 Contributor-Level Profile

我们从PR-level agent标签聚合出contributor-level指标:

指标含义范围
dominant_agent使用最多的agent类型5类
dominant_agent_sharedominant_agent PR占比[0,1]
dominance_bucket主导性强弱分档>=0.90, 0.67-0.89, <0.67
distinct_agents_used使用过的agent种类数1-5
agent_hhi集中度指数 (∑share²)[0,1]
agent_entropy_nats不确定性[0, ln(5)]

分布: 89位heavy hitters中,OpenAI_Codex占61.8%;34.8%使用多agent;20.2% PR<10但负担高。


2. 治理负担定义:四通道外部触点

我们定义外部治理触点非作者、非Bot的干预事件:

  1. external_review_events – review状态变化(APPROVED/CHANGES_REQUESTED/COMMENTED)
  2. external_review_comments – line-level review评论
  3. external_pr_discussion_comments – issue-style PR评论
  4. external_timeline_events – 工作流事件(labeled, locked, reopened, review_requested等)

总触点: total_external_touchpoints = sum(above)


3. 核心发现:Burden Beyond Volume

3.1 极度集中

  • Gini系数: 0.9603
  • Top 5% heavy hitters 贡献 93.7% 的总触点

3.2 PR-Volume Matched Control

方法: 每位heavy hitter匹配5位相同PR数量bin、相同dominant agent的controls。

结果 (I3, I4):

  • PR-weighted delta (heavy − control) = +4.1744 触点/PR
  • 100% heavies 的per-PR触点高于其controls
  • Discussion 和 review 通道贡献主要delta (≈+1.2-1.4)
  • 所有PR量级别(包括<10 PR的轻量贡献者)均呈现正向delta

解读: 即使PR数量相同,“高负担贡献者”身份依然存在——这不是产量问题,而是身份问题。维护者对某些contributor系统性应用更严格的审查。


4. 稳定性:Contributor Identity 是恒定的吗?

方法 (I7): 对≥2 PR的贡献者计算触点的变异系数CV = std/mean。

结果:

  • 中位数CV = 0.8937
  • 整体pooled CV = 2.5596
  • 75%分位数CV ≈ 1.5

解读: 大部分变异在组间(不同贡献者),而非组内(同一贡献者不同PR)。每位贡献者倾向于有相对恒定的治理暴露水平——支持contributor身份稳定性。


5. 滞后效应:历史负担预测未来审查

方法 (I8, I13): 分析31,799个非首PR,outcome=当前PR触点,predictor=prior_mean_touchpoints(最近5 PR平均),控制pr_experience。

结果:

  • Corr(outcome, prior_mean) = 0.424 (中等正相关)
  • Corr(outcome, pr_experience) = -0.051 (≈0)
  • Channel分解 (I13):
    • ext_pr_discussion_comments: r=0.403 (最强)
    • ext_review_events: r=0.354
    • ext_timeline_events: r=0.325

解读: 历史负担独立预测未来审查强度,且discussion通道驱动最强。维护者似乎对之前被干预的贡献者持续关注,尤其在PR讨论中。


6. 通道稳定性:哪个通道最一致?

方法 (I15): 计算每位贡献者各通道的CV,比较分布。

结果 (median CV, 越低越稳定):

  • ext_pr_discussion_comments: 0.857 (最稳定)
  • ext_review_events: 1.303
  • ext_timeline_events: 1.508 (最波动)

解读: Discussion通道在贡献者内部表现最一致;timeline波动最大。结合lag结果,discussion既稳定又强lag,可能是最”信号丰富”的治理通道。


7. Repo 上下文:是否因仓库而异?

数据: 146位多仓库贡献者 (≥2 repos)

ICC (I11): 0.450 – 约45%总方差在贡献者层面,55%部分归因于repo差异。

Reviewer数量相关性: 跨repo,(mean触点, mean distinct_reviewers) 相关系数均值 0.680

Fixed-effects匹配 (I16): 仅2个repo有足够heavy+controls样本,无法得出普遍结论。但heavy分布稀疏(1385个repo有heavies,但大多数只有1个)本身说明heavy是稀有现象。

解读: Repo context matter。同一贡献者在不同仓库可能经历不同scrutiny。然而heavy的稀疏分布意味着repo-specific策略可能只适用于大型项目。


8. Multi-Agent Heavies:混合agent的影响

方法 (I14): 比较multi-agent heavies (distinct_agents>1) vs single-agent heavies,均匹配single-agent controls。

结果 (per-PR delta):

  • Single-agent heavies: total delta = 4.8844
  • Multi-agent heavies: total delta = 2.513
  • Multi-agent heavies 在review和timeline的delta都更小

解读: 混合agent使用反而与较低的额外负担相关。这反直觉,可能因为:

  • Multi-agent heavies 本身是更熟练的贡献者,能用工具更高效,减少干预
  • Selection bias: 只有那些本来负担就低的贡献者才敢尝试多工具
  • 需要进一步因果分析

9. 阈值效应:累计治理的跳变点

方法 (I6): 按累计prior触点分bin,比较后续PR平均触点。

结果:

  • 6-20 → 21-100: ratio = 0.997 (无跳变)
  • 21-100 → 100+: ratio = 1.663 (跳增66%)

解读: 累计治理干预超过100次后,存在非线性跳变,后续PR显著更受scrutiny。可能是”警戒阈值”效应。


10. 方法学反思

  1. Governance surface必须包含discussion和timeline,仅review会漏掉重要干预。
  2. Matched control design 是检验”burden beyond volume”的有效准实验方法。
  3. Lag ≠ 因果:prior_mean可能与未观测PR特征相关;固定效应和匹配已部分缓解。
  4. Repo sparse: heavy hitters在多数repo仅1人,限制了 repo-level inference。
  5. 单一可信源 (master_pr_level.csv) 确保了分析一致性。

11. 对 RQ1 的回答

Can contributor-level agent dominance be measured reliably from public GitHub traces, and does it predict review burden beyond PR-level features?

答案: ,但有 qualifications。

可测量: 从公开事件可计算dominance profile,指标稳定 (CV低)。

预测负担: Burden beyond volume 证据强健(I3, I4, I14),且稳健于PR量匹配、agent分层、within-contributor控制。

⚠️ 因果解释需谨慎: 仍可能受未观测混杂(PR复杂度、任务类型、repo成熟度)。Fixed-effects分析受限于数据稀疏性。

政策意义: 可设计差异化治理流程(如对低PR高burden贡献者提供简化审查,或对高历史负担者加强检查)。Discussion通道是关键抓手。


12. 局限与未来工作

  • Post-merge risk: AIDev缺乏缺陷数据,无法检验burden是否预测后续质量
  • Causal identification: 需工具变量或自然实验
  • Reviewer identity: 当前分析用数量而非身份,dyad-level偏见待挖掘
  • Heavy definition: 仅用top 5%;可探索不同阈值
  • Generalizability: AIDev是否代表所有GitHub开源项目?可能偏向活跃repo

13. 产出文件索引

文件用途
outputs/master_pr_level.csv统一PR-level表(33,596 PRs)
outputs/observable_cads_v0.csvcontributor dominance profile
outputs/heavy_hitter_pr_volume_control_summary.jsonI3核心结果
outputs/channel_lag_effects_summary.jsonI13 channel-specific lag
outputs/channel_stability_cv_summary.jsonI15 channel CV
outputs/multi_agent_channel_profile.jsonI14 multi-agent heavies
outputs/repo_fixed_effects_summary.jsonI16 repo-level check
notes/2026-03-30-repo-fixed-effects.mdI16笔记
PROJECT_DOCUMENTATION.md项目全文档
ITERATION_LOG.md迭代记录

致远:基于这些发现,可以撰写论文 RQ1 部分,重点突出:

  1. 新operationalization (4通道触点)
  2. Burden beyond volume 的证据 (matched control)
  3. 稳定性与滞后效应
  4. 通道分解 (discussion核心)
  5. 方法反思与政策含义

下一步: 若有post-merge risk数据,可尝试关联分析;否则进入论文写作阶段。