← 返回

🌱如果 Jittor 想长出下游生态:从当前 PyTorch 依赖数据看该先补哪些包

最后更新 2026/04/05 08:20:03 JittorPyTorch开源生态软件供应链生态策略

如果 Jittor 想长出下游生态:从当前 PyTorch 依赖数据看该先补哪些包

这篇报告的目标不是泛泛而谈“Jittor 需要更多用户”,而是更具体地回答一个问题:如果 Jittor 现在下游软件包很少,它最应该优先发展哪一类包,才能真正带动生态增长?

我采用的思路是:

  1. 先看当前 PyTorch 生态里被依赖最多的项目,找出真正支撑繁荣的主干;
  2. 再看一些 stars 不高但 dependents 很高 的“隐藏关键节点”,理解生态里哪些中间层值得优先补;
  3. 再结合 Tavily 检索到的外部资料,给 Jittor 提一个更有操作性的路线图。

一、为什么要从 dependents 看,而不是只看 stars

如果只看 GitHub stars,最容易看到的是“明星项目”; 但如果看 repo dependents + package dependents,更容易看到:

  • 哪些项目在实际工作流里被广泛复用
  • 哪些中间层在放大框架能力
  • 哪些组件在支撑生态的工程化和应用化

对一个想长出下游生态的新框架来说,这比追“最热门方向”更重要。

因为生态增长的关键,不只是“有多少人知道你”,而是:

有多少事情可以围绕你被更容易地做成。


二、当前 PyTorch 生态里被依赖最多的主干项目

基于当前增量数据,我对同一 GitHub 仓库做了去重后,当前 top dependents 大致如下:

排名项目total dependents它代表什么
1pytorch-pretrained-BERT / pytorch-transformers414443早期 NLP 预训练模型入口
2langchain281780LLM 应用 / Agent / RAG 编排层
3sentence-transformers129902Embedding / retrieval / reranking
4accelerate109785分布式训练桥接层
5triton79092高性能自定义算子 / 编译器层
6timm63343视觉模型库 / 预训练权重入口
7ultralytics57919视觉应用入口(检测/分割/跟踪)
8pytorch-lightning49473训练工程标准化
9hydra42547配置管理与实验治理

这组结果非常关键。因为它说明:

PyTorch 生态的繁荣,不只是由模型框架本身推动的,而是由“模型入口 + 训练桥接层 + 工程层 + 应用编排层”共同推动的。


三、当前值得关注的隐藏关键节点

除了“大而广”的主干,我还看了当前样本里一些 影响力系数极高 的隐藏节点:

packagestarstotal dependents可能代表的生态方向
compressed-tensors2631961推理压缩 / 模型制品格式层
docling-ibm-models190961文档 AI / PDF 理解 / RAG 输入层
entmax462636稀疏方法 / 论文实现层
deepecho120379合成数据 / 数据基础设施
deepmultilingualpunctuation158283小而实用的 NLP 推理工具
auditnlg103168trustworthy AI / 审计层

这类项目不一定最出名,但它们往往揭示了:

  • 哪些中间层在悄悄扩散
  • 哪些“工作流关键件”最容易被反复复用
  • 框架生态在哪些场景里开始变厚

四、Jittor 现在最该优先补哪条线?

结论先行

如果 Jittor 现在下游软件包还少,我的建议不是“什么都补”,而是按下面的优先级做:

Priority 1:模型入口层(最先补)

建议优先方向

  1. Jittor 版 timm(视觉模型库)
  2. Jittor 版 sentence-transformers 风格库(embedding / retrieval)
  3. Jittor 版 YOLO / 视觉应用入口

为什么先补这层

因为一个新框架最缺的不是“理论能力”,而是:

别人能不能很快拿你跑起来一个有用的任务。

PyTorch 生态里,timmsentence-transformersultralytics 这种项目都在做同一件事:

  • 给出清晰的任务入口
  • 提供预训练权重
  • 让用户一两行代码就能试出效果

对 Jittor 来说,这一层的作用是最大化“首个可用体验”。

为什么不是先补训练框架

因为在没有足够多用户前,先做过重的工程层,收益不如先做能让用户上手的入口层。


Priority 2:训练桥接层 / 轻量工程层

建议优先方向

  1. Jittor 版 accelerate 风格库
  2. Jittor 版轻量 Lightning / Trainer 层
  3. Jittor 版 Hydra 风格配置模版 / starter template

为什么这层重要

Tavily 检索到的资料里,PyTorch 的生态优势不仅来自框架本身,还来自:

这些都指向一个事实:

很多团队不是不会写模型,而是没时间把训练、配置、多卡、日志、复现实验这些工程细节重新造一遍。

如果 Jittor 想长生态,它需要尽快降低:

  • 多卡训练门槛
  • 实验组织门槛
  • 样板代码门槛

但这里我建议做的是“轻量桥接层”,不是一开始就做特别重的大一统框架。


Priority 3:文档 AI / RAG 输入层(很值得赌)

建议优先方向

  1. 文档解析 / PDF 转 Markdown / 布局分析
  2. 表格抽取与 OCR 协同
  3. 面向 RAG 的 document pipeline

为什么这一层值得优先考虑

Tavily 检索显示,文档 AI 这条线在企业生成式 AI 里越来越重要:

这说明:

未来很多框架竞争,不只是拼训练能力,而是拼“能不能吃进企业文档和业务数据”。

如果 Jittor 盯住这个方向,反而有可能避开与 PyTorch 在“通用训练框架”上的正面消耗战。

我的判断

如果 Jittor 想做差异化增长,文档 AI / 中文文档理解 / RAG 输入工具链 是很值得优先押注的。


Priority 4:推理压缩与部署层(中期重点)

建议优先方向

  1. 统一的量化 / 压缩模型格式
  2. 更易部署的推理引擎接口
  3. 模型压缩工具链与导出链路

为什么这层重要

Tavily 外部证据里,compressed-tensors 与 vLLM / Red Hat 相关材料都说明:

这些项目在做的事情,本质上是:

降低模型落地成本,提升推理可部署性。

如果 Jittor 想让生态从“学术演示”进入“工程落地”,迟早得补这一层。

但我认为它比“模型入口层”稍后,因为前期更需要先让人能用、能试、能发包。


Priority 5:小而实用的隐藏节点包(最容易以小博大)

Jittor 现在如果下游包少,最容易起量的不一定是“大一统平台”,反而可能是一些:

  • 小众但频繁复用的 NLP 工具
  • 轻量视觉推理工具
  • 数据处理 / 生成辅助库
  • 模型方法实现库

比如从当前 hidden nodes 里能看到几种类型:

A. 方法实现型

entmax

  • 好处:容易切入学术圈
  • 成本:不一定直接带大量工程用户

B. 数据基础设施型

deepecho

  • 好处:能切入 synthetic data、评测、隐私数据场景
  • 价值:补“模型之外”的生态

C. 实用推理小工具型

deepmultilingualpunctuation

  • 好处:非常容易被应用项目消费
  • 更适合当“Jittor 生态第一批可见成果”

D. Trust / Audit 型

auditnlg

  • 好处:贴近企业采用
  • 风险:离 Jittor 当前核心用户可能稍远

我的建议

对于 Jittor 这种还在长下游包数量的阶段, 最值得发展的“小众隐藏节点”类型 是:

  1. 中文 / 多语言文本实用推理小工具
  2. 文档处理 / OCR / 表格理解配套包
  3. 轻量 embedding / retrieval 工具
  4. 合成数据 / benchmark 小工具

因为这些方向:

  • 容易出成果
  • 更容易被真实项目依赖
  • 也更容易形成“我为什么非得装 Jittor 生态这几个包”的理由

五、Jittor 不应该优先做什么

如果目标是“快速长出下游软件包”,我反而不建议 Jittor 一上来就优先做:

1. 纯框架层重复建设

比如花太多力气去做“又一个全功能训练框架 / 又一个全功能通用平台”,但没有足够用户和任务入口。

2. 只做 benchmark 宣传

Tavily 检索到的 Jittor 资料里,它的性能、JIT、meta-operator 很强,这是优势:

但只讲 benchmark 不足以长生态。

因为生态增长更依赖:

  • 包入口
  • 工具链
  • 教程
  • 应用场景
  • 可复用模板

3. 过早追求“什么都有”

Jittor 现在更适合选择 2–3 条最有希望的下游路径集中突破,而不是平均发力。


六、给 Jittor 的一份更具体路线图

Phase 1:先长“入口包”

优先做:

  • Jittor Vision Models(对标 timm
  • Jittor Embeddings / Retrieval(对标 sentence-transformers
  • Jittor YOLO / 检测工具箱(对标 ultralytics

目标:

  • 让用户能 5 分钟跑出效果
  • 让社区能开始发 tutorial / demo / notebook

Phase 2:再补“轻工程层”

优先做:

  • Jittor Accelerate Lite
  • Jittor Trainer / Lightning-lite
  • Jittor Hydra templates

目标:

  • 降低实验、训练、复现、迁移门槛

Phase 3:做差异化中间层

优先做:

  • 文档 AI / PDF / OCR / RAG 输入层
  • 中文场景实用工具
  • 推理压缩与部署层

目标:

  • 形成“不是 PyTorch 的缩水版,而是有自己生态个性”的位置

七、最终结论

如果只用一句话概括我的建议:

Jittor 现在不应该先去复制一个完整的 PyTorch,而应该先长出几个“能被别人直接依赖”的入口包与中间层包。

按优先级排序,我会建议它这么做:

  1. 先做模型入口层timm / sentence-transformers / ultralytics 风格的 Jittor 包
  2. 再做轻量训练桥接层accelerate / lightning / hydra 风格能力
  3. 差异化押注文档 AI / 中文文档理解 / RAG 输入层
  4. 中期补推理压缩与部署层
  5. 持续用小众隐藏节点包快速增加真实依赖量

从生态增长逻辑看,最重要的不是“Jittor 有没有全部能力”,而是:

别人愿不愿意因为某个具体任务、某个具体工具、某个具体包,而开始依赖 Jittor。

这才是下游软件包真正长出来的起点。


参考链接

Jittor

PyTorch 生态与外部证据


说明:本报告基于当前增量 dependents 数据,后续随着采集继续推进,统计排序仍可能变化;但整体生态判断已经足够稳定。