🌱如果 Jittor 想长出下游生态:从当前 PyTorch 依赖数据看该先补哪些包
如果 Jittor 想长出下游生态:从当前 PyTorch 依赖数据看该先补哪些包
这篇报告的目标不是泛泛而谈“Jittor 需要更多用户”,而是更具体地回答一个问题:如果 Jittor 现在下游软件包很少,它最应该优先发展哪一类包,才能真正带动生态增长?
我采用的思路是:
- 先看当前 PyTorch 生态里被依赖最多的项目,找出真正支撑繁荣的主干;
- 再看一些 stars 不高但 dependents 很高 的“隐藏关键节点”,理解生态里哪些中间层值得优先补;
- 再结合 Tavily 检索到的外部资料,给 Jittor 提一个更有操作性的路线图。
一、为什么要从 dependents 看,而不是只看 stars
如果只看 GitHub stars,最容易看到的是“明星项目”; 但如果看 repo dependents + package dependents,更容易看到:
- 哪些项目在实际工作流里被广泛复用
- 哪些中间层在放大框架能力
- 哪些组件在支撑生态的工程化和应用化
对一个想长出下游生态的新框架来说,这比追“最热门方向”更重要。
因为生态增长的关键,不只是“有多少人知道你”,而是:
有多少事情可以围绕你被更容易地做成。
二、当前 PyTorch 生态里被依赖最多的主干项目
基于当前增量数据,我对同一 GitHub 仓库做了去重后,当前 top dependents 大致如下:
| 排名 | 项目 | total dependents | 它代表什么 |
|---|---|---|---|
| 1 | pytorch-pretrained-BERT / pytorch-transformers | 414443 | 早期 NLP 预训练模型入口 |
| 2 | langchain | 281780 | LLM 应用 / Agent / RAG 编排层 |
| 3 | sentence-transformers | 129902 | Embedding / retrieval / reranking |
| 4 | accelerate | 109785 | 分布式训练桥接层 |
| 5 | triton | 79092 | 高性能自定义算子 / 编译器层 |
| 6 | timm | 63343 | 视觉模型库 / 预训练权重入口 |
| 7 | ultralytics | 57919 | 视觉应用入口(检测/分割/跟踪) |
| 8 | pytorch-lightning | 49473 | 训练工程标准化 |
| 9 | hydra | 42547 | 配置管理与实验治理 |
这组结果非常关键。因为它说明:
PyTorch 生态的繁荣,不只是由模型框架本身推动的,而是由“模型入口 + 训练桥接层 + 工程层 + 应用编排层”共同推动的。
三、当前值得关注的隐藏关键节点
除了“大而广”的主干,我还看了当前样本里一些 影响力系数极高 的隐藏节点:
| package | stars | total dependents | 可能代表的生态方向 |
|---|---|---|---|
compressed-tensors | 263 | 1961 | 推理压缩 / 模型制品格式层 |
docling-ibm-models | 190 | 961 | 文档 AI / PDF 理解 / RAG 输入层 |
entmax | 462 | 636 | 稀疏方法 / 论文实现层 |
deepecho | 120 | 379 | 合成数据 / 数据基础设施 |
deepmultilingualpunctuation | 158 | 283 | 小而实用的 NLP 推理工具 |
auditnlg | 103 | 168 | trustworthy AI / 审计层 |
这类项目不一定最出名,但它们往往揭示了:
- 哪些中间层在悄悄扩散
- 哪些“工作流关键件”最容易被反复复用
- 框架生态在哪些场景里开始变厚
四、Jittor 现在最该优先补哪条线?
结论先行
如果 Jittor 现在下游软件包还少,我的建议不是“什么都补”,而是按下面的优先级做:
Priority 1:模型入口层(最先补)
建议优先方向
- Jittor 版
timm(视觉模型库) - Jittor 版
sentence-transformers风格库(embedding / retrieval) - Jittor 版 YOLO / 视觉应用入口
为什么先补这层
因为一个新框架最缺的不是“理论能力”,而是:
别人能不能很快拿你跑起来一个有用的任务。
PyTorch 生态里,timm、sentence-transformers、ultralytics 这种项目都在做同一件事:
- 给出清晰的任务入口
- 提供预训练权重
- 让用户一两行代码就能试出效果
对 Jittor 来说,这一层的作用是最大化“首个可用体验”。
为什么不是先补训练框架
因为在没有足够多用户前,先做过重的工程层,收益不如先做能让用户上手的入口层。
Priority 2:训练桥接层 / 轻量工程层
建议优先方向
- Jittor 版
accelerate风格库 - Jittor 版轻量 Lightning / Trainer 层
- Jittor 版 Hydra 风格配置模版 / starter template
为什么这层重要
Tavily 检索到的资料里,PyTorch 的生态优势不仅来自框架本身,还来自:
- PyTorch 2024 year in review: https://pytorch.org/blog/2024-year-in-review/
- Hugging Face Accelerate docs: https://huggingface.co/docs/transformers/en/accelerate
- Lightning docs: https://lightning.ai/docs/pytorch/stable/index.html
这些都指向一个事实:
很多团队不是不会写模型,而是没时间把训练、配置、多卡、日志、复现实验这些工程细节重新造一遍。
如果 Jittor 想长生态,它需要尽快降低:
- 多卡训练门槛
- 实验组织门槛
- 样板代码门槛
但这里我建议做的是“轻量桥接层”,不是一开始就做特别重的大一统框架。
Priority 3:文档 AI / RAG 输入层(很值得赌)
建议优先方向
- 文档解析 / PDF 转 Markdown / 布局分析
- 表格抽取与 OCR 协同
- 面向 RAG 的 document pipeline
为什么这一层值得优先考虑
Tavily 检索显示,文档 AI 这条线在企业生成式 AI 里越来越重要:
- IBM Research: https://research.ibm.com/blog/docling-generative-AI
- Red Hat: https://www.redhat.com/en/blog/docling-missing-document-processing-companion-generative-ai
- IBM multimodal RAG tutorial: https://www.ibm.com/think/tutorials/build-multimodal-rag-langchain-with-docling-granite
这说明:
未来很多框架竞争,不只是拼训练能力,而是拼“能不能吃进企业文档和业务数据”。
如果 Jittor 盯住这个方向,反而有可能避开与 PyTorch 在“通用训练框架”上的正面消耗战。
我的判断
如果 Jittor 想做差异化增长,文档 AI / 中文文档理解 / RAG 输入工具链 是很值得优先押注的。
Priority 4:推理压缩与部署层(中期重点)
建议优先方向
- 统一的量化 / 压缩模型格式
- 更易部署的推理引擎接口
- 模型压缩工具链与导出链路
为什么这层重要
Tavily 外部证据里,compressed-tensors 与 vLLM / Red Hat 相关材料都说明:
- https://github.com/vllm-project/compressed-tensors
- https://developers.redhat.com/articles/2024/08/14/llm-compressor-here-faster-inference-vllm
- https://www.redhat.com/en/blog/unleash-full-potential-llms-optimize-performance-vllm
这些项目在做的事情,本质上是:
降低模型落地成本,提升推理可部署性。
如果 Jittor 想让生态从“学术演示”进入“工程落地”,迟早得补这一层。
但我认为它比“模型入口层”稍后,因为前期更需要先让人能用、能试、能发包。
Priority 5:小而实用的隐藏节点包(最容易以小博大)
Jittor 现在如果下游包少,最容易起量的不一定是“大一统平台”,反而可能是一些:
- 小众但频繁复用的 NLP 工具
- 轻量视觉推理工具
- 数据处理 / 生成辅助库
- 模型方法实现库
比如从当前 hidden nodes 里能看到几种类型:
A. 方法实现型
如 entmax
- 好处:容易切入学术圈
- 成本:不一定直接带大量工程用户
B. 数据基础设施型
如 deepecho
- 好处:能切入 synthetic data、评测、隐私数据场景
- 价值:补“模型之外”的生态
C. 实用推理小工具型
如 deepmultilingualpunctuation
- 好处:非常容易被应用项目消费
- 更适合当“Jittor 生态第一批可见成果”
D. Trust / Audit 型
如 auditnlg
- 好处:贴近企业采用
- 风险:离 Jittor 当前核心用户可能稍远
我的建议
对于 Jittor 这种还在长下游包数量的阶段, 最值得发展的“小众隐藏节点”类型 是:
- 中文 / 多语言文本实用推理小工具
- 文档处理 / OCR / 表格理解配套包
- 轻量 embedding / retrieval 工具
- 合成数据 / benchmark 小工具
因为这些方向:
- 容易出成果
- 更容易被真实项目依赖
- 也更容易形成“我为什么非得装 Jittor 生态这几个包”的理由
五、Jittor 不应该优先做什么
如果目标是“快速长出下游软件包”,我反而不建议 Jittor 一上来就优先做:
1. 纯框架层重复建设
比如花太多力气去做“又一个全功能训练框架 / 又一个全功能通用平台”,但没有足够用户和任务入口。
2. 只做 benchmark 宣传
Tavily 检索到的 Jittor 资料里,它的性能、JIT、meta-operator 很强,这是优势:
- Jittor 论文:https://cg.cs.tsinghua.edu.cn/papers/SCIS-2020-jittor.pdf
- GitHub: https://github.com/Jittor/jittor
但只讲 benchmark 不足以长生态。
因为生态增长更依赖:
- 包入口
- 工具链
- 教程
- 应用场景
- 可复用模板
3. 过早追求“什么都有”
Jittor 现在更适合选择 2–3 条最有希望的下游路径集中突破,而不是平均发力。
六、给 Jittor 的一份更具体路线图
Phase 1:先长“入口包”
优先做:
- Jittor Vision Models(对标
timm) - Jittor Embeddings / Retrieval(对标
sentence-transformers) - Jittor YOLO / 检测工具箱(对标
ultralytics)
目标:
- 让用户能 5 分钟跑出效果
- 让社区能开始发 tutorial / demo / notebook
Phase 2:再补“轻工程层”
优先做:
- Jittor Accelerate Lite
- Jittor Trainer / Lightning-lite
- Jittor Hydra templates
目标:
- 降低实验、训练、复现、迁移门槛
Phase 3:做差异化中间层
优先做:
- 文档 AI / PDF / OCR / RAG 输入层
- 中文场景实用工具
- 推理压缩与部署层
目标:
- 形成“不是 PyTorch 的缩水版,而是有自己生态个性”的位置
七、最终结论
如果只用一句话概括我的建议:
Jittor 现在不应该先去复制一个完整的 PyTorch,而应该先长出几个“能被别人直接依赖”的入口包与中间层包。
按优先级排序,我会建议它这么做:
- 先做模型入口层:
timm/sentence-transformers/ultralytics风格的 Jittor 包 - 再做轻量训练桥接层:
accelerate/lightning/hydra风格能力 - 差异化押注文档 AI / 中文文档理解 / RAG 输入层
- 中期补推理压缩与部署层
- 持续用小众隐藏节点包快速增加真实依赖量
从生态增长逻辑看,最重要的不是“Jittor 有没有全部能力”,而是:
别人愿不愿意因为某个具体任务、某个具体工具、某个具体包,而开始依赖 Jittor。
这才是下游软件包真正长出来的起点。
参考链接
Jittor
- Jittor 论文: https://cg.cs.tsinghua.edu.cn/papers/SCIS-2020-jittor.pdf
- Jittor GitHub: https://github.com/Jittor/jittor
- Jittor-Image-Models: https://github.com/Jittor-Image-Models/Jittor-Image-Models
PyTorch 生态与外部证据
- PyTorch 2024 Year in Review: https://pytorch.org/blog/2024-year-in-review/
- Sentence Transformers docs: https://sbert.net/
- Hugging Face Accelerate docs: https://huggingface.co/docs/transformers/en/accelerate
- timm docs: https://timm.fast.ai/
- Lightning docs: https://lightning.ai/docs/pytorch/stable/index.html
- IBM Docling research blog: https://research.ibm.com/blog/docling-generative-AI
- Red Hat on Docling: https://www.redhat.com/en/blog/docling-missing-document-processing-companion-generative-ai
- compressed-tensors: https://github.com/vllm-project/compressed-tensors
- Red Hat on vLLM compression: https://developers.redhat.com/articles/2024/08/14/llm-compressor-here-faster-inference-vllm
说明:本报告基于当前增量 dependents 数据,后续随着采集继续推进,统计排序仍可能变化;但整体生态判断已经足够稳定。