这个傻子是吃了多少奇怪的语料啊,语气也看得我好生气。而且还特别喜欢给你输出一大堆小标题结构的返回。每条回复都会很长很长,结构性弱的不得了。连提示词指令都约束不了他,除非你每次输出都带上这个约束。 5 个帖子 - 5 位参与者 阅读完整话题
我想了半天没想明白代码哪来的"港版"一说,这总不能是从国内大厂学的语料了吧 难道是 ported version = 离港的版本 = 港版? 那这翻译也真够神的 3 个帖子 - 3 位参与者 阅读完整话题
一直听说有语料库污染,终于还是被我遇到了 1 个帖子 - 1 位参与者 阅读完整话题
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
对于两个训练语料都充足的编程语言, 对于人类来说,一个编程语言的心智负担小,一个编程语言的心智负担大。 那么对于 llm 来说,在 token 计算上,会有复杂度的不同吗
一开始还没反应过来|“铁磁”这个词 Gemini这种词汇都用得出来吗!?看来Google还挺重视中文语料的 5 个帖子 - 4 位参与者 阅读完整话题
我记得去年2.5发布一会至少有一个多月是没有降智的,现在刚发布没几天3.5flash网页端就已经降智的很严重了 7 个帖子 - 7 位参与者 阅读完整话题
本来还在感慨这生成得真不错,我都考虑切成头像了,结果一看旁边有个 ABYDOS,胸前的牌子还有墙上的画甚至挂的是千年科技学院的 Logo。瞬间大失所望。 顺便问问佬友们生成自设有没有合适的提示词?我拿去喂给 GPT 让它给我做一个。 Oh 电脑显示器里边还有个古关忧。 1 个帖子 - 1 位参与者 阅读完整话题
原来不是。 小米自己的回答是这样: 训练数据的来源构成 主流大模型的语料主要是: Common Crawl (互联网网页)—— 占大头 新闻、维基百科、Reddit 等网络文本 代码( GitHub 等) 书籍只占一小部分,而且受版权法律限制,不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。 图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。 模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着: 热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流 冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编 具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错 一个实验你就可以做 随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型: "这本书的第 3 章主要讲了什么?" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来,要么一本正经地胡说八道。
原来不是。 小米自己的回答是这样: 训练数据的来源构成 主流大模型的语料主要是: Common Crawl (互联网网页)—— 占大头 新闻、维基百科、Reddit 等网络文本 代码( GitHub 等) 书籍只占一小部分,而且受版权法律限制,不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。 图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。 模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着: 热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流 冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编 具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错 一个实验你就可以做 随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型: "这本书的第 3 章主要讲了什么?" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来,要么一本正经地胡说八道。
原来不是。 小米自己的回答是这样: 训练数据的来源构成 主流大模型的语料主要是: Common Crawl (互联网网页)—— 占大头 新闻、维基百科、Reddit 等网络文本 代码( GitHub 等) 书籍只占一小部分,而且受版权法律限制,不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。 图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。 模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着: 热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流 冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编 具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错 一个实验你就可以做 随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型: "这本书的第 3 章主要讲了什么?" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来,要么一本正经地胡说八道。
原来不是。 小米自己的回答是这样: 训练数据的来源构成 主流大模型的语料主要是: Common Crawl (互联网网页)—— 占大头 新闻、维基百科、Reddit 等网络文本 代码( GitHub 等) 书籍只占一小部分,而且受版权法律限制,不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。 图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。 模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着: 热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流 冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编 具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错 一个实验你就可以做 随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型: "这本书的第 3 章主要讲了什么?" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来,要么一本正经地胡说八道。
刚刚输出的 4 个帖子 - 4 位参与者 阅读完整话题
明明对中国百般抵制,封号,现在又开始频繁蒸馏中国模型语料库,这是典型双标 6 个帖子 - 6 位参与者 阅读完整话题
如图 // 3. 声明你想偷…哦不,你想获取的对象 这都是哪翻出来的语料库啊 2 个帖子 - 2 位参与者 阅读完整话题
在 DeepSeek 输入会随机吐出别人的对话。以为是训练语料,但是有实时时间可以确定是 BUG! 正在上传:1d87d5096a357819385368d9b0de220e.jpg… 25 个帖子 - 24 位参与者 阅读完整话题