最近我因为说了一句国产模型蒸馏问题,就被举报删帖。在某音平台评论一句国产模型蒸馏,被追着骂,仿佛这种话题就是谈都不能谈的滑梯,但是我还是想在此聊一下关于模型蒸馏的问题, 比如 国产模型是否蒸馏了 模型蒸馏比例 经典洗白文案等 首先,我们要明确一些事实 1、蒸馏是中性词 2、国产模型大都为开源模型 3、闭源模型大都禁止其他人或组织蒸馏数据 4、人工大量采集模型的数据集十分困难,需要巨大的人力成本和资金成本 ok,我们从以上事实进行推导 1、数据处理成本 首先,当年OPENAI雇了一大批人去做了数据处理和标注。 如:https://time.com/6247678/openai-chatgpt-kenya-workers/ OpenAI 这类公司不是只靠自家员工标注,而是会用外包/供应商。早期 ChatGPT 安全数据就被报道使用 Sama 的肯尼亚工人做有害内容标注;后来整个行业还大量使用 Scale AI、Mercor、Turing、Surge AI 这类 RLHF/专家标注供应链。 但是网络上并没有查找到 Deepseek 的数据标注团队人数和来源,仅仅能看到一些如医院数据这种的行业少量数据的标注招聘: https://www.scmp.com/tech/big-tech/article/3313335/deepseek-job-ads-call-interns-label-medical-data-improve-ai-use-hospitals 并且还有文章表示,Deepseek团队其团队仅有32名标注员,但是这篇文章有失偏颇所以我们只做参考: https://ideas.repec.org/p/hal/wpaper/hal-04952735.html Deepseek 论文中,写有训练的数据量为:671B 总参数、每 token 激活 37B 参数,预训练用了 14.8T tokens。 https://arxiv.org/html/2412.19437v1 那么问题来了,仅靠 30 多人 清洗14.8T tokens 有可能吗? 来一个假设: 假设 每人每天处理 30 人总耗时 精读标注 5万 token 约 2.7 万年 快速审核 50万 token 约 2700 年 极快抽检 500万 token 约 270 年 每人每天看 5000 万 token 约 27 年 每人清洗五千万 tokens 要 27 年才能清洗完毕。 当然,“人数少还能做出来” 本身不能直接证明它蒸馏 OpenAI,只能说大概率使用了一些强大的模型,进行了数据处理和标注。但是无法直接证明蒸馏。 但是有一点,OPENAI 虽然允许第三方调用 API 进行数据标注,但是禁止用 GPT/ 输出训练通用大模型和禁止 用GPT输出蒸馏竞品模型。 如果 DeepSeek 使用了 openai 进行标注,显然是违反了openai的条款。 2、幻觉 通过蒸馏的模型,基本上幻觉率都很高,原理是模型不了解某些知识只能靠编,而真正靠数据集训练出来的模型是不需要靠编的 我们可以在本文中看到 https://www.vectara.com/blog/why-does-deepseek-r1-hallucinate-so-much 模型 幻觉率 GPT-4 约 1.8% GPT-4o 约 1.49% DeepSeek-V3 3.9%~6.1% DeepSeek-R1 14.3% DeepSeek 的模型幻觉率比 GPT 同时期的模型要高上一倍。 3、模型自称 这就不用多说了,只要训练的数据集多了,就会认为自己是别人 如: https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/ 还有一些某国产模型说自己是 claude https://linux.do/t/topic/1921500 4、模型蒸馏比例 claude 也说自己蒸馏过其他模型,但是比例呢,如果一个模型百分之 80 是蒸馏,和一个模型百分之 1 是蒸馏,那么肯定是有区别的。 以上我说的,均不能证明国产模型蒸馏,只是为大家开拓一下视野。目的是抵制非法蒸馏,尊重知识产权。 人都是自私的,便宜的 token 谁都想用,但是如果真的把认真搞模型的人搞死了,那就是劣币驱逐良币,最终都没 token 用了。 你们可以继续骂我了 3 个帖子 - 3 位参与者 阅读完整话题
最近在某音刷到了很多关于u航机器人的ai视频,明明知道那是机器人,为什么就是感觉不一样呢, “质疑痞老板,理解痞老板,成为痞老板”,这个玩笑梗真的会成真吗? 4 个帖子 - 4 位参与者 阅读完整话题
项目描述: 自动匹配猫鼠队梗图 相信你经常在某站、某音看到评论群会根据视频的特定抽象画面发送猫和老鼠的截图,于是有了个创建一个自动匹配猫和老鼠梗图的想法。 项目核心实现思路:向量检索 项目实现流程: 数据集收集:下载猫和老鼠视频(我用的是经典版157集) 数据处理: 抽帧,用ffmepg对视频进行抽帧 画面去重与清洗 提取特征向量(核心):将清洗后的每一张《猫和老鼠》截图输入到 CLIP 模型 中,模型会为每张图片输出一个高维向量(比如512维的数组)。 存入向量数据库:构建双轨数据库 (FAISS + SQLite) 处理用户输入的截图 用前20集测试了一下,感觉效果还行(后续会根据效果换模型) 3 个帖子 - 3 位参与者 阅读完整话题