🏆PyTorch 生态最终版 Top Dependents 排名:谁在真正支撑下游软件包生态?
PyTorch 生态最终版 Top Dependents 排名:谁在真正支撑下游软件包生态?
这篇报告基于已经全量跑完的
candidate_dependents数据:
- total candidates:
13475- completed:
13475- pending:
0目标不是简单列一个榜单,而是回答一个更重要的问题:到底哪些项目在真实地支撑 PyTorch 下游软件包生态?
一、统计口径说明
为了避免一个 GitHub 仓库被多个 PyPI 包名重复映射造成榜单失真,这里做了两层理解:
- 保留原始 package 名称,方便看到当前数据里实际出现的包名;
- 按 GitHub 仓库理解生态位置,避免把同一仓库的多个发行名误看成多个完全独立项目。
依赖指标定义:
total_dependents = repository_dependents + package_dependents
其中:
repository_dependents:有多少 GitHub 仓库依赖它package_dependents:有多少软件包依赖它
二、最终版 Top 20 榜单
| 排名 | package | GitHub Repo | stars | repo deps | pkg deps | total deps |
|---|---|---|---|---|---|---|
| 1 | pytorch-transformers | huggingface/pytorch-transformers | 157790 | 405038 | 9405 | 414443 |
| 2 | pytorch-pretrained-bert | huggingface/pytorch-pretrained-BERT | 157790 | 405038 | 9405 | 414443 |
| 3 | langchain | langchain-ai/langchain | 129284 | 277362 | 4418 | 281780 |
| 4 | sentence-transformers | huggingface/sentence-transformers | 18379 | 126068 | 3834 | 129902 |
| 5 | accelerate | huggingface/accelerate | 0* | 107363 | 2422 | 109785 |
| 6 | triton | triton-lang/triton | 18634 | 78618 | 474 | 79092 |
| 7 | pytorch-triton-rocm | openai/triton | 18636 | 78603 | 474 | 79077 |
| 8 | timm-ctp | rwightman/pytorch-image-models | 36487 | 62192 | 1151 | 63343 |
| 9 | timm | huggingface/pytorch-image-models | 36487 | 62192 | 1151 | 63343 |
| 10 | ultralytics | ultralytics/ultralytics | 54292 | 57215 | 704 | 57919 |
| 11 | pytorch-lightning | Lightning-AI/pytorch-lightning | 30923 | 48212 | 1261 | 49473 |
| 12 | lightning-app | Lightning-AI/lightning | 30923 | 48210 | 1261 | 49471 |
| 13 | torchmetrics | Lightning-AI/torchmetrics | 2418 | 45311 | 869 | 46180 |
| 14 | hydra-ax-sweeper | facebookresearch/hydra | 10253 | 41491 | 1056 | 42547 |
| 15 | mediapipe | google/mediapipe | 34093 | 39855 | 478 | 40333 |
| 16 | unstructured-cpu | Unstructured-IO/unstructured | 14204 | 38743 | 410 | 39153 |
| 17 | bitsandbytes | bitsandbytes-foundation/bitsandbytes | 8030 | 35825 | 771 | 36596 |
| 18 | peft | huggingface/peft | 20775 | 34992 | 886 | 35878 |
| 19 | diffusers | huggingface/diffusers | 33013 | 33101 | 594 | 33695 |
| 20 | llama-index-retrievers-superlinked | run-llama/llama_index | 47625 | 23692 | 610 | 24302 |
accelerate的 stars 在当前结果里显示为0,更像是当前采集记录中的元数据异常,而不是仓库真实 stars。
三、从榜单里能看到什么
1. Hugging Face 系列几乎统治了 NLP / LLM 基础层
榜单里 Hugging Face 及其相关生态的代表非常多:
pytorch-transformerspytorch-pretrained-bertsentence-transformersacceleratepeftdiffusers
这说明一个很强的事实:
PyTorch 的下游繁荣,很大一部分已经不是“PyTorch 单框架”的繁荣,而是“PyTorch + Hugging Face 工具链”的联合繁荣。
它们分别覆盖了:
- 预训练模型入口
- embedding / retrieval
- 分布式训练桥接
- 参数高效微调
- 生成式图像模型
也就是说,PyTorch 生态里真正最厚的一层,已经是 “可直接上手的任务能力层”,而不仅是底层 tensor 框架本身。
2. 应用编排层已经成了生态主干:LangChain 高得夸张
langchain 排名第 3,281780 的 total dependents 非常夸张。
它的重要性在于:
LangChain 不是训练框架,但它把模型能力接到了真实应用里。
从生态角度看,LangChain 的高依赖意味着:
- 大量开发者不是在“研究模型”,而是在“构建基于模型的系统”
- Agent / RAG / workflow orchestration 已经成为 PyTorch 生态的重要外延
所以现在如果只把 PyTorch 理解成“训练模型的库”,已经不够了。 它同时也是一整条 应用编排生态 的基础底座。
3. 训练与工程层同样是主干:Accelerate / Lightning / Hydra / TorchMetrics
榜单中这几项非常值得一起看:
acceleratepytorch-lightninglightning-apptorchmetricshydra
它们说明了一个常被低估的事实:
推动 PyTorch 繁荣的,不只是模型创新,而是工程可用性。
这些项目解决的是:
- 多卡 / 分布式训练门槛
- 训练 boilerplate
- 指标计算
- 配置管理
- 实验组织
所以它们的高 dependents 本质上是在说明:
PyTorch 生态真正长大的原因,是“训练一个模型”这件事被越来越多辅助层包裹成了可复用的工程工作流。
4. 视觉生态不是小众支线,而是稳固主干
榜单里视觉方向的代表包括:
timmultralyticsmediapipe
它们代表三类不同价值:
timm:视觉模型库 / 预训练权重入口ultralytics:检测 / 分割 / 跟踪应用入口mediapipe:跨端、多模态、视觉应用基础设施
这说明:
PyTorch 的繁荣并没有完全被 LLM 吞掉,视觉生态依然是非常厚的一层。
特别是 ultralytics 的高 dependents,说明“工程应用能不能快速落地”在视觉领域同样是决定生态扩散速度的关键因素。
5. 部署优化 / 高性能算子层已经成为必要基础设施
榜单里 triton、bitsandbytes、peft 很值得放在一起理解:
triton:高性能自定义算子 / 编译器层bitsandbytes:低比特优化 / 高效矩阵运算peft:低成本微调与适配
它们说明:
PyTorch 生态现在不仅在比“能不能训练”,更在比“能不能更便宜、更快、更可部署地训练和推理”。
所以依赖量高的不只是上层应用框架,也包括了下层的效率基础设施。
四、最终版 Top Dependents 背后的五条主线
如果把整个榜单抽象一下,当前 PyTorch 生态最强的不是某一个项目,而是以下五条主线:
主线 1:模型与任务入口层
代表:
pytorch-transformerssentence-transformerstimmdiffusers
作用:
- 降低上手门槛
- 把“想试某类任务”变成几行代码
主线 2:应用编排层
代表:
langchainllama_indexunstructured
作用:
- 把模型能力接到真实业务场景
- 支撑 RAG / Agent / 文档处理
主线 3:训练工程层
代表:
acceleratepytorch-lightninghydratorchmetrics
作用:
- 把训练、实验、配置、评估做成工程工作流
主线 4:视觉应用层
代表:
ultralyticsmediapipetimm
作用:
- 把 CV 模型直接推向真实应用
主线 5:效率与部署层
代表:
tritonbitsandbytespeft
作用:
- 提升推理效率
- 降低训练成本
- 支撑更大规模模型落地
五、最终结论
这份最终版榜单给我的结论非常明确:
PyTorch 生态真正最强的,不是“某个模型”,而是一整套围绕模型形成的可训练、可配置、可复用、可部署、可接入应用的中间层与工程层。
换句话说,PyTorch 的下游繁荣来自五种能力同时存在:
- 任务入口足够多(模型库、预训练权重、工具包)
- 工程化足够强(训练、配置、指标、实验管理)
- 应用层足够厚(RAG、Agent、文档处理)
- 部署层足够成熟(高性能算子、量化、PEFT)
- 视觉与 NLP 都有强入口(不是单点繁荣)
所以如果以后要研究:
- 哪些项目真正支撑了 PyTorch 的扩散
- 为什么某些新框架长不出生态
- 生态繁荣的核心机制是什么
这份 top dependents 榜单会是一个非常强的起点。
六、后续可继续做的事
基于这份最终榜单,我建议下一步继续做三件事:
-
按功能层重新聚类
- 训练层 / 配置层 / 应用层 / 部署层 / 数据层
-
和 hidden key nodes 对照分析
- top dependents 代表“大主干”
- hidden nodes 代表“低调但关键的中间件”
-
加入 layer 信息
- 看这些高 dependents 项目在
versioned_sc.json里分布在哪些层 - 判断哪些是贴近 torch 的“近端主干”,哪些是更外层的应用生态
- 看这些高 dependents 项目在
说明:本报告基于全量完成的 dependents 结果生成,是当前阶段的最终版 top dependents 排名。后续如果补充更多维度(layer / license / stars / maintenance),可以继续迭代为完整研究报告。