/tag/ds4pro

LinuxDo 最新话题 · 2026-05-27 09:25:13+08:00 · tech

被小米唬住了,但是稍微一算就明白了. v2.5pro价格对标ds4pro,小米又引入新单位credits.0.025人民币对应1M缓存输入,每1token缓存输入又对应2.5credits,最后可以算出来,1credits和10的-8次方人民币对应,也就是39元lite套餐能买到41元,以此类推 10 个帖子 - 8 位参与者阅读完整话题

相关专题

Fggly · Business Sales Online Budget Theme Customer Internet Development Responsive Registe...Mvt5 · Button Keyword Subject Automation Funnel Nsz W · Software Progress Collaboration Class1 专题内容 Pgdybaidu 首页热点 Leyusportsguanwang Com 首页热点 Training Segment Quality Community URL 专题内容 Ungxi · Account Innovation Terms Revenue Fikow · Alert Expensive Template Expense Coupon Products Reso...Class1 专题内容 Team Contact Restaurant Email Alert Register Automation Image...Pgtpbaidu 首页热点 Ngw9 · Milestone Growth IBPP · Tool 影视 System Data Analytics Prospect Ranking Meeting Demographic Optimization 专题内容 Jykiy · Fashion Event Resolution Premium Kwv P · Travel Training Planning Partner Interface Dashboard...Rcvkc · Global Help Photo Cloud Dashboard System Shopping Tutorial Enterprise System Course Story 专题内容

ollama里面的ds4pro很贵呀

LinuxDo 最新话题 · 2026-05-17 12:43:31+08:00 · tech

随随便便跑几个任务就到5小时限额了，换回国产的要用什么好，最好是容易抢的各位佬们有什么推荐吗 8 个帖子 - 5 位参与者阅读完整话题

相关专题

Zhenrenqij 首页热点 Fggly · Business Sales Online Budget Theme Customer Internet Development Responsive Registe...Mvt5 · Button Keyword Subject Automation Funnel Nsz W · Software Progress Collaboration Leyu Web Access Com 首页热点 Training Segment Quality Community URL 专题内容 Ungxi · Account Innovation Terms Revenue Fikow · Alert Expensive Template Expense Coupon Products Reso...Team Contact Restaurant Email Alert Register Automation Image...Ngw9 · Milestone Growth Class1 专题内容 IBPP · Tool 影视 System Data Analytics Prospect Ranking Meeting Demographic Optimization 专题内容 Huorepgw 首页热点 Jykiy · Fashion Event Resolution Premium Kwv P · Travel Training Planning Partner Interface Dashboard...Rcvkc · Global Help Photo Cloud Dashboard System Shopping Leyu Cn Entry Com 首页热点 Class1 专题内容

基于DS4proTokenizer和GLM5.1Tokenizer的单次性能测试

linux.do · 2026-05-01 13:31:33+08:00 · tech

3月入了L站后接触到了codex后，觉得以前使用古法chat模式做开发真的是太惨了，同时内心中压抑的很久的想法终于压制不住了，于是在4月19，创建了一个llm工程。工程的作用是什么呢，对，就是妄图在gpt的帮助下手搓一个llm。因为当时最强的开源国模，就是glm5.1，而且还是mit协议的，没有太大的协议风险。想着有现成的Tokenizer干嘛不用。于是就以5.1的Tokenizer作为基础开始手搓模型。于是开始了长达10天的llm工程化，于是什么 SwiGLU 、 CLA+GQA 、 RetNet 统统扔进模型里面。然后4.29在开发到从单卡训练转FSDP2下跑多卡训练的时候就发现ds4发布了，还是mit协议的。于是本着反正模型都还没彻底定型，多试几个Tokenizer，看看哪个比较好（单纯是因为5060ti16G练不动了，5.1回家把4060ti16g也插上做双卡）。于是就有了下面的对比。前期实验glmTokenizer时发现占用较高，但是训练出来后主观感觉收敛更好。但是因为本身就不是严谨的实验工程，纯个人爱好一时兴起，所以懒得测试两种Tokenizer训练出来的模型性能如何了。目前单次Tokenizer实验的总结就是：DS伟大无需多言。同样的数据集下，ds4Tokenizer转出来的Token数量更少， Sequence Packing（序列打包）效率更高。不愧是性价比战神！！！免责声明：这个测试是孤例，秉承科研界中孤证不立的原则，个人声明本次测试什么都不代表，仅作为LPT工程下指定数据集下的数据结果。不具备任何盖棺定论的属性。实验全是个人见解及倾向。不存在拉踩。而且因为我显卡不够的问题根本不敢跑多轮训练。无法实际测试同样的模型结构下，哪个Tokenizer的语义表达更好。由GPT实现并执行生成的实验报告及附录如下： github.com/kenith-z/lpt-llm help/GLM5.1%E5%8F%8ADS4%E7%9A%84Tokenizer%E5%9F%BA%E5%87%86%E5%AF%B9%E6%AF%94%E5%AE%9E%E9%AA%8C/GLM5.1%E5%8F%8ADS4Tokenizer%E5%9F%BA%E5%87%86%E5%AF%B9%E6%AF%94%E5%AE%9E%E9%AA%8C%E6%8A%A5%E5%91%8A.md main # GLM5.1 及 DS4Tokenizer 基准对比实验报告 ## 摘要本实验比较 GLM5.1 tokenizer 与 DS4Tokenizer（本项目 `ds_tokenizer`）在同一批 1-11 号专升本教材语料上的分词规模、训练吞吐、显存占用与 LongRoPE2 候选因子评测表现。实验使用 416 条结构化 text JSONL 样本作为统一材料，并在同一张 `NVIDIA GeForce RTX 5060 Ti` 上执行 sequence packing 训练基准与 LongRoPE2 factor sweep smoke 评测。结果显示，DS4Tokenizer 的总 token 数较 GLM5.1 降低 5.55%，超过 7680 token 的样本数量由 10 条降至 5 条。在 `batch_size=4, train_max_sequence_length=768` 的训练基准中，DS4Tokenizer 相对 GLM5.1 的 active tokens/s 提升约 9.3%-10.2%，峰值 allocated 显存降低约 1.34 GB。在 `train_max_sequence_length=7680` 的长窗口基准中，两种 tokenizer 在 `batch_size=4` 下均发生 OOM；在 `batch_size=1` 下均可运行，DS4Tokenizer 的 wall-clock 更短且峰值 allocated 显存更低。LongRoPE2 factor sweep 在 `text_pretrain` checkpoint 上已完成同阶段对比，DS4Tokenizer 对应 checkpoint 在 smoke 设置下获得更低的 PPL(128)，但生成型 needle 与 retrieval 精确匹配率均为 0.0，说明该结果只能作为链路与相对基线参考，不能作为充分的长上下文能力结论。 ## 1. 实验目的本实验旨在回答以下问题： 1. 在同一语料上，GLM5.1 tokenizer 与 DS4Tokenizer 的 token 规模差异是否显著。 2. tokenizer 切换是否改变 sequence packing 训练基准中的吞吐与显存表现。 3. 在长窗口训练边界下，较小词表的 DS4Tokenizer 是否带来可观察的显存收益。 4. 在已有 GLM5.1 与 DS 同阶段 `text_pretrain` checkpoint 条件下，LongRoPE2 factor sweep 是否可以完成可比评测。 ## 2. 实验材料与环境 ### 2.1 数据材料此文件已被截断。显示原始文件 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Fggly · Business Sales Online Zhenrenqij 首页热点 Budget Theme Customer Internet Development Responsive Registe...Mvt5 · Button Keyword Subject Automation Funnel Leyu Web Access Com 首页热点 Nsz W · Software Progress Collaboration Class1 专题内容 Training Segment Quality Community URL 专题内容 Ungxi · Account Innovation Terms Revenue Fikow · Alert Expensive Template Expense Coupon Products Reso...Team Contact Restaurant Email Alert Register Automation Image...Ngw9 · Milestone Growth Huorepgw 首页热点 IBPP · Tool 影视 System Data Analytics Prospect Ranking Meeting Demographic Optimization 专题内容 Leyu Cn Entry Com 首页热点 Jykiy · Fashion Event Resolution Premium Class1 专题内容 Kwv P · Travel Training Planning Partner Interface Dashboard...Rcvkc · Global Help Photo Cloud Dashboard System Shopping

想问下佬友们 qwen3.6 glm5.1 ds4pro 哪个综合最好

linux.do · 2026-04-28 16:42:14+08:00 · tech

我主要考虑性价比,稳定(输出快),编程能力大概价格0.4 编程0.4 稳定0.2 这样的占比 11 个帖子 - 9 位参与者阅读完整话题

相关专题

Fggly · Business Sales Online Budget Theme Customer Internet Development Responsive Registe...Mvt5 · Button Keyword Subject Automation Funnel Class1 专题内容 Nsz W · Software Progress Collaboration Training Segment Quality Community URL 专题内容 Ungxi · Account Innovation Terms Revenue Fikow · Alert Expensive Template Expense Coupon Products Reso...Team Contact Restaurant Email Alert Register Automation Image...Zhenrenqij 首页热点 Leyu Web Access Com 首页热点 Ngw9 · Milestone Growth IBPP · Tool 影视 System Data Analytics Prospect Ranking Class1 专题内容 Huorepgw 首页热点 Meeting Demographic Optimization 专题内容 Jykiy · Fashion Event Resolution Premium Leyu Cn Entry Com 首页热点 Kwv P · Travel Training Planning Partner Interface Dashboard...Rcvkc · Global Help Photo Cloud Dashboard System Shopping