PyTorch 生态最终版 Top Dependents 排名：谁在真正支撑下游软件包生态？

这篇报告基于已经全量跑完的 candidate_dependents 数据：

total candidates: 13475

completed: 13475

pending: 0

目标不是简单列一个榜单，而是回答一个更重要的问题：到底哪些项目在真实地支撑 PyTorch 下游软件包生态？

一、统计口径说明

为了避免一个 GitHub 仓库被多个 PyPI 包名重复映射造成榜单失真，这里做了两层理解：

保留原始 package 名称，方便看到当前数据里实际出现的包名；
按 GitHub 仓库理解生态位置，避免把同一仓库的多个发行名误看成多个完全独立项目。

依赖指标定义：

total_dependents = repository_dependents + package_dependents

其中：

repository_dependents：有多少 GitHub 仓库依赖它
package_dependents：有多少软件包依赖它

二、最终版 Top 20 榜单

排名	package	GitHub Repo	stars	repo deps	pkg deps	total deps
1	`pytorch-transformers`	huggingface/pytorch-transformers	157790	405038	9405	414443
2	`pytorch-pretrained-bert`	huggingface/pytorch-pretrained-BERT	157790	405038	9405	414443
3	`langchain`	langchain-ai/langchain	129284	277362	4418	281780
4	`sentence-transformers`	huggingface/sentence-transformers	18379	126068	3834	129902
5	`accelerate`	huggingface/accelerate	0*	107363	2422	109785
6	`triton`	triton-lang/triton	18634	78618	474	79092
7	`pytorch-triton-rocm`	openai/triton	18636	78603	474	79077
8	`timm-ctp`	rwightman/pytorch-image-models	36487	62192	1151	63343
9	`timm`	huggingface/pytorch-image-models	36487	62192	1151	63343
10	`ultralytics`	ultralytics/ultralytics	54292	57215	704	57919
11	`pytorch-lightning`	Lightning-AI/pytorch-lightning	30923	48212	1261	49473
12	`lightning-app`	Lightning-AI/lightning	30923	48210	1261	49471
13	`torchmetrics`	Lightning-AI/torchmetrics	2418	45311	869	46180
14	`hydra-ax-sweeper`	facebookresearch/hydra	10253	41491	1056	42547
15	`mediapipe`	google/mediapipe	34093	39855	478	40333
16	`unstructured-cpu`	Unstructured-IO/unstructured	14204	38743	410	39153
17	`bitsandbytes`	bitsandbytes-foundation/bitsandbytes	8030	35825	771	36596
18	`peft`	huggingface/peft	20775	34992	886	35878
19	`diffusers`	huggingface/diffusers	33013	33101	594	33695
20	`llama-index-retrievers-superlinked`	run-llama/llama_index	47625	23692	610	24302

accelerate 的 stars 在当前结果里显示为 0，更像是当前采集记录中的元数据异常，而不是仓库真实 stars。

三、从榜单里能看到什么

1. Hugging Face 系列几乎统治了 NLP / LLM 基础层

榜单里 Hugging Face 及其相关生态的代表非常多：

pytorch-transformers
pytorch-pretrained-bert
sentence-transformers
accelerate
peft
diffusers

这说明一个很强的事实：

PyTorch 的下游繁荣，很大一部分已经不是“PyTorch 单框架”的繁荣，而是“PyTorch + Hugging Face 工具链”的联合繁荣。

它们分别覆盖了：

预训练模型入口
embedding / retrieval
分布式训练桥接
参数高效微调
生成式图像模型

也就是说，PyTorch 生态里真正最厚的一层，已经是 “可直接上手的任务能力层”，而不仅是底层 tensor 框架本身。

2. 应用编排层已经成了生态主干：LangChain 高得夸张

langchain 排名第 3，281780 的 total dependents 非常夸张。

它的重要性在于：

LangChain 不是训练框架，但它把模型能力接到了真实应用里。

从生态角度看，LangChain 的高依赖意味着：

大量开发者不是在“研究模型”，而是在“构建基于模型的系统”
Agent / RAG / workflow orchestration 已经成为 PyTorch 生态的重要外延

所以现在如果只把 PyTorch 理解成“训练模型的库”，已经不够了。它同时也是一整条 应用编排生态 的基础底座。

3. 训练与工程层同样是主干：Accelerate / Lightning / Hydra / TorchMetrics

榜单中这几项非常值得一起看：

accelerate
pytorch-lightning
lightning-app
torchmetrics
hydra

它们说明了一个常被低估的事实：

推动 PyTorch 繁荣的，不只是模型创新，而是工程可用性。

这些项目解决的是：

多卡 / 分布式训练门槛
训练 boilerplate
指标计算
配置管理
实验组织

所以它们的高 dependents 本质上是在说明：

PyTorch 生态真正长大的原因，是“训练一个模型”这件事被越来越多辅助层包裹成了可复用的工程工作流。

4. 视觉生态不是小众支线，而是稳固主干

榜单里视觉方向的代表包括：

timm
ultralytics
mediapipe

它们代表三类不同价值：

timm：视觉模型库 / 预训练权重入口
ultralytics：检测 / 分割 / 跟踪应用入口
mediapipe：跨端、多模态、视觉应用基础设施

这说明：

PyTorch 的繁荣并没有完全被 LLM 吞掉，视觉生态依然是非常厚的一层。

特别是 ultralytics 的高 dependents，说明“工程应用能不能快速落地”在视觉领域同样是决定生态扩散速度的关键因素。

5. 部署优化 / 高性能算子层已经成为必要基础设施

榜单里 triton、bitsandbytes、peft 很值得放在一起理解：

triton：高性能自定义算子 / 编译器层
bitsandbytes：低比特优化 / 高效矩阵运算
peft：低成本微调与适配

它们说明：

PyTorch 生态现在不仅在比“能不能训练”，更在比“能不能更便宜、更快、更可部署地训练和推理”。

所以依赖量高的不只是上层应用框架，也包括了下层的效率基础设施。

四、最终版 Top Dependents 背后的五条主线

如果把整个榜单抽象一下，当前 PyTorch 生态最强的不是某一个项目，而是以下五条主线：

主线 1：模型与任务入口层

代表：

pytorch-transformers
sentence-transformers
timm
diffusers

作用：

降低上手门槛
把“想试某类任务”变成几行代码

主线 2：应用编排层

代表：

langchain
llama_index
unstructured

作用：

把模型能力接到真实业务场景
支撑 RAG / Agent / 文档处理

主线 3：训练工程层

代表：

accelerate
pytorch-lightning
hydra
torchmetrics

作用：

把训练、实验、配置、评估做成工程工作流

主线 4：视觉应用层

代表：

ultralytics
mediapipe
timm

作用：

把 CV 模型直接推向真实应用

主线 5：效率与部署层

代表：

triton
bitsandbytes
peft

作用：

提升推理效率
降低训练成本
支撑更大规模模型落地

五、最终结论

这份最终版榜单给我的结论非常明确：

PyTorch 生态真正最强的，不是“某个模型”，而是一整套围绕模型形成的可训练、可配置、可复用、可部署、可接入应用的中间层与工程层。

换句话说，PyTorch 的下游繁荣来自五种能力同时存在：

任务入口足够多（模型库、预训练权重、工具包）
工程化足够强（训练、配置、指标、实验管理）
应用层足够厚（RAG、Agent、文档处理）
部署层足够成熟（高性能算子、量化、PEFT）
视觉与 NLP 都有强入口（不是单点繁荣）

所以如果以后要研究：

哪些项目真正支撑了 PyTorch 的扩散
为什么某些新框架长不出生态
生态繁荣的核心机制是什么

这份 top dependents 榜单会是一个非常强的起点。

六、后续可继续做的事

基于这份最终榜单，我建议下一步继续做三件事：

按功能层重新聚类
- 训练层 / 配置层 / 应用层 / 部署层 / 数据层
和 hidden key nodes 对照分析
- top dependents 代表“大主干”
- hidden nodes 代表“低调但关键的中间件”
加入 layer 信息
- 看这些高 dependents 项目在 versioned_sc.json 里分布在哪些层
- 判断哪些是贴近 torch 的“近端主干”，哪些是更外层的应用生态

说明：本报告基于全量完成的 dependents 结果生成，是当前阶段的最终版 top dependents 排名。后续如果补充更多维度（layer / license / stars / maintenance），可以继续迭代为完整研究报告。