← 返回

🏆PyTorch 生态最终版 Top Dependents 排名:谁在真正支撑下游软件包生态?

最后更新 2026/04/05 08:20:03 PyTorch开源生态软件供应链dependents最终版

PyTorch 生态最终版 Top Dependents 排名:谁在真正支撑下游软件包生态?

这篇报告基于已经全量跑完candidate_dependents 数据:

  • total candidates: 13475
  • completed: 13475
  • pending: 0

目标不是简单列一个榜单,而是回答一个更重要的问题:到底哪些项目在真实地支撑 PyTorch 下游软件包生态?


一、统计口径说明

为了避免一个 GitHub 仓库被多个 PyPI 包名重复映射造成榜单失真,这里做了两层理解:

  1. 保留原始 package 名称,方便看到当前数据里实际出现的包名;
  2. 按 GitHub 仓库理解生态位置,避免把同一仓库的多个发行名误看成多个完全独立项目。

依赖指标定义:

total_dependents = repository_dependents + package_dependents

其中:

  • repository_dependents:有多少 GitHub 仓库依赖它
  • package_dependents:有多少软件包依赖它

二、最终版 Top 20 榜单

排名packageGitHub Repostarsrepo depspkg depstotal deps
1pytorch-transformershuggingface/pytorch-transformers1577904050389405414443
2pytorch-pretrained-berthuggingface/pytorch-pretrained-BERT1577904050389405414443
3langchainlangchain-ai/langchain1292842773624418281780
4sentence-transformershuggingface/sentence-transformers183791260683834129902
5acceleratehuggingface/accelerate0*1073632422109785
6tritontriton-lang/triton186347861847479092
7pytorch-triton-rocmopenai/triton186367860347479077
8timm-ctprwightman/pytorch-image-models3648762192115163343
9timmhuggingface/pytorch-image-models3648762192115163343
10ultralyticsultralytics/ultralytics542925721570457919
11pytorch-lightningLightning-AI/pytorch-lightning3092348212126149473
12lightning-appLightning-AI/lightning3092348210126149471
13torchmetricsLightning-AI/torchmetrics24184531186946180
14hydra-ax-sweeperfacebookresearch/hydra1025341491105642547
15mediapipegoogle/mediapipe340933985547840333
16unstructured-cpuUnstructured-IO/unstructured142043874341039153
17bitsandbytesbitsandbytes-foundation/bitsandbytes80303582577136596
18pefthuggingface/peft207753499288635878
19diffusershuggingface/diffusers330133310159433695
20llama-index-retrievers-superlinkedrun-llama/llama_index476252369261024302

accelerate 的 stars 在当前结果里显示为 0,更像是当前采集记录中的元数据异常,而不是仓库真实 stars。


三、从榜单里能看到什么

1. Hugging Face 系列几乎统治了 NLP / LLM 基础层

榜单里 Hugging Face 及其相关生态的代表非常多:

  • pytorch-transformers
  • pytorch-pretrained-bert
  • sentence-transformers
  • accelerate
  • peft
  • diffusers

这说明一个很强的事实:

PyTorch 的下游繁荣,很大一部分已经不是“PyTorch 单框架”的繁荣,而是“PyTorch + Hugging Face 工具链”的联合繁荣。

它们分别覆盖了:

  • 预训练模型入口
  • embedding / retrieval
  • 分布式训练桥接
  • 参数高效微调
  • 生成式图像模型

也就是说,PyTorch 生态里真正最厚的一层,已经是 “可直接上手的任务能力层”,而不仅是底层 tensor 框架本身。


2. 应用编排层已经成了生态主干:LangChain 高得夸张

langchain 排名第 3,281780 的 total dependents 非常夸张。

它的重要性在于:

LangChain 不是训练框架,但它把模型能力接到了真实应用里。

从生态角度看,LangChain 的高依赖意味着:

  • 大量开发者不是在“研究模型”,而是在“构建基于模型的系统”
  • Agent / RAG / workflow orchestration 已经成为 PyTorch 生态的重要外延

所以现在如果只把 PyTorch 理解成“训练模型的库”,已经不够了。 它同时也是一整条 应用编排生态 的基础底座。


3. 训练与工程层同样是主干:Accelerate / Lightning / Hydra / TorchMetrics

榜单中这几项非常值得一起看:

  • accelerate
  • pytorch-lightning
  • lightning-app
  • torchmetrics
  • hydra

它们说明了一个常被低估的事实:

推动 PyTorch 繁荣的,不只是模型创新,而是工程可用性。

这些项目解决的是:

  • 多卡 / 分布式训练门槛
  • 训练 boilerplate
  • 指标计算
  • 配置管理
  • 实验组织

所以它们的高 dependents 本质上是在说明:

PyTorch 生态真正长大的原因,是“训练一个模型”这件事被越来越多辅助层包裹成了可复用的工程工作流。


4. 视觉生态不是小众支线,而是稳固主干

榜单里视觉方向的代表包括:

  • timm
  • ultralytics
  • mediapipe

它们代表三类不同价值:

  • timm:视觉模型库 / 预训练权重入口
  • ultralytics:检测 / 分割 / 跟踪应用入口
  • mediapipe:跨端、多模态、视觉应用基础设施

这说明:

PyTorch 的繁荣并没有完全被 LLM 吞掉,视觉生态依然是非常厚的一层。

特别是 ultralytics 的高 dependents,说明“工程应用能不能快速落地”在视觉领域同样是决定生态扩散速度的关键因素。


5. 部署优化 / 高性能算子层已经成为必要基础设施

榜单里 tritonbitsandbytespeft 很值得放在一起理解:

  • triton:高性能自定义算子 / 编译器层
  • bitsandbytes:低比特优化 / 高效矩阵运算
  • peft:低成本微调与适配

它们说明:

PyTorch 生态现在不仅在比“能不能训练”,更在比“能不能更便宜、更快、更可部署地训练和推理”。

所以依赖量高的不只是上层应用框架,也包括了下层的效率基础设施。


四、最终版 Top Dependents 背后的五条主线

如果把整个榜单抽象一下,当前 PyTorch 生态最强的不是某一个项目,而是以下五条主线:

主线 1:模型与任务入口层

代表:

  • pytorch-transformers
  • sentence-transformers
  • timm
  • diffusers

作用:

  • 降低上手门槛
  • 把“想试某类任务”变成几行代码

主线 2:应用编排层

代表:

  • langchain
  • llama_index
  • unstructured

作用:

  • 把模型能力接到真实业务场景
  • 支撑 RAG / Agent / 文档处理

主线 3:训练工程层

代表:

  • accelerate
  • pytorch-lightning
  • hydra
  • torchmetrics

作用:

  • 把训练、实验、配置、评估做成工程工作流

主线 4:视觉应用层

代表:

  • ultralytics
  • mediapipe
  • timm

作用:

  • 把 CV 模型直接推向真实应用

主线 5:效率与部署层

代表:

  • triton
  • bitsandbytes
  • peft

作用:

  • 提升推理效率
  • 降低训练成本
  • 支撑更大规模模型落地

五、最终结论

这份最终版榜单给我的结论非常明确:

PyTorch 生态真正最强的,不是“某个模型”,而是一整套围绕模型形成的可训练、可配置、可复用、可部署、可接入应用的中间层与工程层。

换句话说,PyTorch 的下游繁荣来自五种能力同时存在:

  1. 任务入口足够多(模型库、预训练权重、工具包)
  2. 工程化足够强(训练、配置、指标、实验管理)
  3. 应用层足够厚(RAG、Agent、文档处理)
  4. 部署层足够成熟(高性能算子、量化、PEFT)
  5. 视觉与 NLP 都有强入口(不是单点繁荣)

所以如果以后要研究:

  • 哪些项目真正支撑了 PyTorch 的扩散
  • 为什么某些新框架长不出生态
  • 生态繁荣的核心机制是什么

这份 top dependents 榜单会是一个非常强的起点。


六、后续可继续做的事

基于这份最终榜单,我建议下一步继续做三件事:

  1. 按功能层重新聚类

    • 训练层 / 配置层 / 应用层 / 部署层 / 数据层
  2. 和 hidden key nodes 对照分析

    • top dependents 代表“大主干”
    • hidden nodes 代表“低调但关键的中间件”
  3. 加入 layer 信息

    • 看这些高 dependents 项目在 versioned_sc.json 里分布在哪些层
    • 判断哪些是贴近 torch 的“近端主干”,哪些是更外层的应用生态

说明:本报告基于全量完成的 dependents 结果生成,是当前阶段的最终版 top dependents 排名。后续如果补充更多维度(layer / license / stars / maintenance),可以继续迭代为完整研究报告。