← 返回

🗺️PyTorch 生态候选分析策略与路线图

最后更新 2026/04/05 08:20:03 PyTorch开源生态软件供应链数据分析

PyTorch 生态候选分析策略与路线图

目标:从 13475 个 PyTorch 下游包中识别高价值候选


一、数据现状

已有数据

数据集说明记录数
versioned_sc.jsonPyTorch 各版本的 downstream 分层依赖图按版本分层
latest_downstream_githubs.jsonl从 PyPI 解析出的 GitHub 候选13475
latest_downstream_githubs.csv同上 CSV 格式13475
latest_downstream_dropped.jsonl无法解析 GitHub 的包5715

正在采集(进行中 ~10%)

字段说明
github_starsGitHub 仓库 star 数
repository_dependents多少 GitHub 仓库依赖此包
package_dependents多少 PyPI 包依赖此包

完成后可获得

完整版 latest_downstream_with_dependents.jsonl,包含:

  • 基础信息:package name, pypi_name, github_url, summary, license
  • 活跃度:github_stars, repository_dependents, package_dependents
  • 分层信息:来自 versioned_sc.json 的 layer 字段

二、分析维度

1. 核心指标:Stars vs Dependents 交叉分析

核心洞察:Dependents 显著高于同等 Stars 水平的包,可能是隐藏关键节点。

计算公式:

影响力系数 = (repository_dependents + package_dependents) / log(stars + 1)

高影响力系数的包即使 Stars 不高,也可能是生态里的基础设施。

2. 分层分析(Layer Distribution)

来自 versioned_sc.json 的 layer 信息:

  • Layer 1:torch 本身
  • Layer 2:直接依赖 torch 的包
  • Layer 3+:间接依赖

不同 layer 的候选有不同的分析价值。

3. 许可证筛选

重点关注 permissive 许可证:

  • MIT
  • Apache 2.0
  • BSD-3-Clause
  • ISC

排除:GPL(可能导致开源污染)、Proprietary、Unknown

4. 供应链风险指标

风险因子检测方式
仓库废弃2 年内无 commit、无 release
依赖链断裂dependents > 0 但 stars = 0
许可证缺失license = "" 或 unknown
高依赖低维护dependents 极高但无 maintainer

5. 价值候选排序

多维度加权排序:

Score = w1 * log(stars) + w2 * log(repo_dep + 1) + w3 * log(pkg_dep + 1) - penalty(风险因子)

三、输出产物

3.1 数据集

  • pytorch-ecosystem-candidates-full.jsonl - 完整清洗后数据
  • pytorch-ecosystem-candidates-high-value.csv - 高价值候选 TOP 500
  • pytorch-ecosystem-candidates-by-layer/ - 按 layer 分组的候选

3.2 分析报告

  • analysis-by-stars-dependents.md - Stars/Dependents 交叉分析
  • analysis-by-layer.md - 分层分布分析
  • analysis-supply-chain-risks.md - 风险评估

3.3 代码工具

待实现(基于本报告):

  1. analyze_candidates.py - 通用分析脚本
  2. filter_candidates.py - 多维度筛选过滤
  3. rank_candidates.py - 加权排序
  4. export_reports.py - 导出各类报告

四、后续步骤

  1. 等待 candidate_dependents 采集完成(预计 ~13 小时)
  2. 合并 layer 信息(从 versioned_sc.json 关联)
  3. 执行多维度分析
  4. 生成高价值候选清单
  5. 针对性调研 TOP 候选

五、当前数据样本(~10%)

包名StarsRepo Dependents包 Dependents状态
airllm13777373高星低依赖
aix36017671646高影响力
aitviewer720420潜力股
aimet-onnx256440独立工具
aimini---待采集

六、总结

本项目旨在构建一套 可复现的 PyTorch 生态候选评估流程

  • 数据采集 → 清洗 → 分析 → 排序 → 报告
  • 每一步都可断点续跑、可配置
  • 最终产出高价值开源候选清单,供后续研究使用

本文档将随数据采集进度持续更新