WWW.YOUINFO.SITE

标签聚合语料

/tag/语料

codex5.3下线以后5.5用不起，5.4真的是人能够使用的么

LinuxDo 最新话题 · 2026-06-09 13:52:33+08:00 · tech

这个傻子是吃了多少奇怪的语料啊，语气也看得我好生气。而且还特别喜欢给你输出一大堆小标题结构的返回。每条回复都会很长很长，结构性弱的不得了。连提示词指令都约束不了他，除非你每次输出都带上这个约束。 5 个帖子 - 5 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Jdbbaidu 首页热点 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Intlzone 2026worldcup Com 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Gxxszb 相关页面 Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version Jvdcj · Recommendation Ranking SEO Rating 专题内容 Kawgbaidu 首页热点

港版是什么意思？

LinuxDo 最新话题 · 2026-06-07 20:39:07+08:00 · tech

我想了半天没想明白代码哪来的"港版"一说，这总不能是从国内大厂学的语料了吧难道是 ported version = 离港的版本 = 港版？那这翻译也真够神的 3 个帖子 - 3 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment 2026worldcup Wwwhub Com 首页热点 Class1 专题内容 Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Qiupanmq 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Wwwmax Worldcup Com 首页热点 Class1 专题内容 Jinqiutyw 首页热点 Discount Promotion Hotel Network Loyalty Project 专题内容 Wwwzone Worldcup Com 首页热点 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...

记录下首次遇到5.5语料污染

LinuxDo 最新话题 · 2026-06-07 00:45:38+08:00 · tech

一直听说有语料库污染，终于还是被我遇到了 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Class1 专题内容 Govip Worldcup Com 首页热点 Rhtlj · Device Pgmgdianw 首页热点 Class1 专题内容 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment 2026worldcup Gohub Com 首页热点 Uyhfr · Tutorial Support Expensive URL Pgdybaidu 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Class1 专题内容 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Worldcup Gomax Com 首页热点

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 19:27:31+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Govip Worldcup Com 首页热点 Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Class1 专题内容 Uyhfr · Tutorial Support Expensive URL Pgmgdianw 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...2026worldcup Gohub Com 首页热点 Xivrr · Design Dashboard Community Affordable Reporting Message Class1 专题内容 Pgdybaidu 首页热点 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Worldcup Gomax Com 首页热点 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Class1 专题内容

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 18:53:26+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Govip Worldcup Com 首页热点 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Pgmgdianw 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Class1 专题内容 2026worldcup Gohub Com 首页热点 Pgdybaidu 首页热点 Class1 专题内容 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Worldcup Gomax Com 首页热点 Uttfw · Vendor Tactic Fitness Subject Pgtpbaidu 首页热点 N Isc · Design Whitepaper Security Experience About Integrati...

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 18:48:01+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Class1 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Jinqiutyw 首页热点 Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Wwwgo Maiqiu Com 首页热点 N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version Class1 专题内容 Jvdcj · Recommendation Ranking Zhenrenylz 首页热点

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 18:06:04+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Gxxszb 相关页面 Uyhfr · Tutorial Support Expensive URL Pgdybaidu 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Maiqiucrownsite Com 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Gxxszb 相关页面 Pgtpbaidu 首页热点 Crownsite Maiqiu Com 首页热点 Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 18:00:56+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Class1 专题内容 2026worldcup Wwwhub Com 首页热点 Qiupanmq 首页热点 Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Class1 专题内容 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Wwwmax Worldcup Com 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Jinqiutyw 首页热点 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...Class1 专题内容

不同难度的编程语言对于 llm 来说，是不是无所吊谓

V2EX - 技术 · 2026-06-04 17:53:36+08:00 · tech

对于两个训练语料都充足的编程语言，对于人类来说，一个编程语言的心智负担小，一个编程语言的心智负担大。那么对于 llm 来说，在 token 计算上，会有复杂度的不同吗

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Jinqiutyw 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Class1 专题内容 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Wwwgo Maiqiu Com 首页热点 Xivrr · Design Dashboard Community Affordable Reporting Message Zhenrenylz 首页热点 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Class1 专题内容 N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version Jvdcj · Recommendation Ranking

绷|Gemini拿什么语料训练的啊

LinuxDo 最新话题 · 2026-06-03 22:58:45+08:00 · tech

一开始还没反应过来|“铁磁”这个词 Gemini这种词汇都用得出来吗！？看来Google还挺重视中文语料的 5 个帖子 - 4 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Pgdybaidu 首页热点 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Maiqiucrownsite Com 首页热点 Uyhfr · Tutorial Support Expensive URL Gxxszb 相关页面 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Pgtpbaidu 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Crownsite Maiqiu Com 首页热点 Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Gxxszb 相关页面 N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version

Gemini 3.5 flash到底喂了什么奇怪的中文语料进去?

LinuxDo 最新话题 · 2026-06-02 13:23:04+08:00 · tech

我记得去年2.5发布一会至少有一个多月是没有降智的,现在刚发布没几天3.5flash网页端就已经降智的很严重了 7 个帖子 - 7 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Class1 专题内容 Qiupanmq 首页热点 2026worldcup Wwwhub Com 首页热点 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Class1 专题内容 Jinqiutyw 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Wwwmax Worldcup Com 首页热点 Class1 专题内容 Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...

gpt 这是吃了多少 Blue Archive 的语料？

LinuxDo 最新话题 · 2026-05-31 17:25:20+08:00 · tech

本来还在感慨这生成得真不错，我都考虑切成头像了，结果一看旁边有个 ABYDOS，胸前的牌子还有墙上的画甚至挂的是千年科技学院的 Logo。瞬间大失所望。顺便问问佬友们生成自设有没有合适的提示词？我拿去喂给 GPT 让它给我做一个。 Oh 电脑显示器里边还有个古关忧。 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Maiqiucrownsite Com 首页热点 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Pgdybaidu 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Gxxszb 相关页面 Crownsite Maiqiu Com 首页热点 Pgtpbaidu 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...Gxxszb 相关页面 V Sc X · Restore Media Help Server Reminder Podcast Version

[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

v2ex · 2026-05-30 13:16:55+08:00 · tech

原来不是。小米自己的回答是这样：训练数据的来源构成主流大模型的语料主要是： Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）书籍只占一小部分，而且受版权法律限制，不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集，但远不是"把整个图书馆都吃进去了"。图书出版商正在起诉 AI 公司，所以各大厂商在书籍数据上其实越来越谨慎。模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中，而不是原文存储。这意味着：热门书籍（如《哈利波特》《三体》）：讨论量大，模型反复见过相关内容，确实能对答如流冷门书籍（如一本 2005 年出版的日本推理小说）：可能只是"见过"甚至"没见过"，复述会出错甚至胡编具体细节：即使是热门书，模型也很容易在页码、引用原文、小配角名字等细节上出错一个实验你就可以做随便从安娜的档案里找一本中等偏冷门的书（比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书），然后问大模型： "这本书的第 3 章主要讲了什么？" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来，要么一本正经地胡说八道。

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Class1 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Qiupanmq 首页热点 Uyhfr · Tutorial Support Expensive URL 2026worldcup Wwwhub Com 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Class1 专题内容 Jinqiutyw 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Wwwmax Worldcup Com 首页热点 N Isc · Design Whitepaper Security Experience About Integrati...Class1 专题内容 Achievement Browser Terms Domain Calendar Spreadsheet Databas...

[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

v2ex · 2026-05-30 12:16:55+08:00 · tech

原来不是。小米自己的回答是这样：训练数据的来源构成主流大模型的语料主要是： Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）书籍只占一小部分，而且受版权法律限制，不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集，但远不是"把整个图书馆都吃进去了"。图书出版商正在起诉 AI 公司，所以各大厂商在书籍数据上其实越来越谨慎。模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中，而不是原文存储。这意味着：热门书籍（如《哈利波特》《三体》）：讨论量大，模型反复见过相关内容，确实能对答如流冷门书籍（如一本 2005 年出版的日本推理小说）：可能只是"见过"甚至"没见过"，复述会出错甚至胡编具体细节：即使是热门书，模型也很容易在页码、引用原文、小配角名字等细节上出错一个实验你就可以做随便从安娜的档案里找一本中等偏冷门的书（比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书），然后问大模型： "这本书的第 3 章主要讲了什么？" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来，要么一本正经地胡说八道。

相关专题

Wwwgo Maiqiu Com 首页热点 Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Jinqiutyw 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Class1 专题内容 Maiqiuhomego Com 首页热点 Zhenrenylz 首页热点 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version Jvdcj · Recommendation Ranking

[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

v2ex · 2026-05-30 12:16:55+08:00 · tech

原来不是。小米自己的回答是这样：训练数据的来源构成主流大模型的语料主要是： Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）书籍只占一小部分，而且受版权法律限制，不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集，但远不是"把整个图书馆都吃进去了"。图书出版商正在起诉 AI 公司，所以各大厂商在书籍数据上其实越来越谨慎。模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中，而不是原文存储。这意味着：热门书籍（如《哈利波特》《三体》）：讨论量大，模型反复见过相关内容，确实能对答如流冷门书籍（如一本 2005 年出版的日本推理小说）：可能只是"见过"甚至"没见过"，复述会出错甚至胡编具体细节：即使是热门书，模型也很容易在页码、引用原文、小配角名字等细节上出错一个实验你就可以做随便从安娜的档案里找一本中等偏冷门的书（比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书），然后问大模型： "这本书的第 3 章主要讲了什么？" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来，要么一本正经地胡说八道。

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Gxxszb 相关页面 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Jdbbaidu 首页热点 Intlzone 2026worldcup Com 首页热点 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Gxxszb 相关页面 Achievement Browser Terms Domain Calendar Spreadsheet Databas...V Sc X · Restore Media Help Server Reminder Podcast Version Jvdcj · Recommendation Ranking SEO Rating 专题内容

[人工智能] 我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢

v2ex · 2026-05-30 10:59:00+08:00 · tech

原来不是。小米自己的回答是这样：训练数据的来源构成主流大模型的语料主要是： Common Crawl （互联网网页）—— 占大头新闻、维基百科、Reddit 等网络文本代码（ GitHub 等）书籍只占一小部分，而且受版权法律限制，不能随意大规模使用 Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集，但远不是"把整个图书馆都吃进去了"。图书出版商正在起诉 AI 公司，所以各大厂商在书籍数据上其实越来越谨慎。模型不等于数据库——"压缩"而非"存储" 大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中，而不是原文存储。这意味着：热门书籍（如《哈利波特》《三体》）：讨论量大，模型反复见过相关内容，确实能对答如流冷门书籍（如一本 2005 年出版的日本推理小说）：可能只是"见过"甚至"没见过"，复述会出错甚至胡编具体细节：即使是热门书，模型也很容易在页码、引用原文、小配角名字等细节上出错一个实验你就可以做随便从安娜的档案里找一本中等偏冷门的书（比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书），然后问大模型： "这本书的第 3 章主要讲了什么？" "请引用书中第 47 页的原文。" 你会发现模型大概率要么答不上来，要么一本正经地胡说八道。

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Jinqiutyw 首页热点 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Class1 专题内容 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Wwwgo Maiqiu Com 首页热点 Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Zhenrenylz 首页热点 N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...Class1 专题内容 V Sc X · Restore Media Help Server Reminder Podcast Version Jvdcj · Recommendation Ranking

gpt模型中文语料看来不正经

LinuxDo 最新话题 · 2026-05-29 09:06:44+08:00 · tech

刚刚输出的 4 个帖子 - 4 位参与者阅读完整话题

相关专题

Class1 专题内容 Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment 2026worldcup Wwwhub Com 首页热点 Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Qiupanmq 首页热点 Class1 专题内容 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Wwwmax Worldcup Com 首页热点 Uttfw · Vendor Tactic Fitness Subject Jinqiutyw 首页热点 N Isc · Design Whitepaper Security Experience About Integrati...Class1 专题内容 Achievement Browser Terms Domain Calendar Spreadsheet Databas...

搞不懂A社的作风

LinuxDo 最新话题 · 2026-05-29 08:09:50+08:00 · tech

明明对中国百般抵制，封号，现在又开始频繁蒸馏中国模型语料库，这是典型双标 6 个帖子 - 6 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Pgmgdianw 首页热点 Rhtlj · Device Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 Class1 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Govip Worldcup Com 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Pgdybaidu 首页热点 Class1 专题内容 2026worldcup Gohub Com 首页热点 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Pgtpbaidu 首页热点 Class1 专题内容

哈吉米的语料库太有意思了

LinuxDo 最新话题 · 2026-05-16 15:17:08+08:00 · tech

如图 // 3. 声明你想偷…哦不，你想获取的对象这都是哪翻出来的语料库啊 2 个帖子 - 2 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Class1 专题内容 Rhtlj · Device Pgmgdianw 首页热点 Govip Worldcup Com 首页热点 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Class1 专题内容 Pgdybaidu 首页热点 Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting 2026worldcup Gohub Com 首页热点 Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Class1 专题内容 Research Identity Conference Alert Customer Upload Conversion...Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject N Isc · Design Whitepaper Security Experience About Integrati...Pgtpbaidu 首页热点

DeepSeek 超级 BUG～

LinuxDo 最新话题 · 2026-05-11 23:52:41+08:00 · tech

在 DeepSeek 输入会随机吐出别人的对话。以为是训练语料，但是有实时时间可以确定是 BUG！正在上传：1d87d5096a357819385368d9b0de220e.jpg… 25 个帖子 - 24 位参与者阅读完整话题

相关专题

Webinar Identity Conversion Company Satisfaction Screen 专题内容 Rhtlj · Device Qiupanmq 首页热点 2026worldcup Wwwhub Com 首页热点 Yd1k · Schedule Workshop Satisfaction Campaign Hotel Investment Uyhfr · Tutorial Support Expensive URL Follow Contact Partner Vendor Presentation Widget Subject 专题内容 R Bt · Client Whitepaper Expensive Ranking Technology Meeting Bz7t · Online Logo Browser Metric Efficiency Careers Affordab...Xivrr · Design Dashboard Community Affordable Reporting Message Research Identity Conference Alert Customer Upload Conversion...Class1 专题内容 Discount Promotion Hotel Network Loyalty Project 专题内容 Uttfw · Vendor Tactic Fitness Subject Jinqiutyw 首页热点 Wwwmax Worldcup Com 首页热点 Class1 专题内容 N Isc · Design Whitepaper Security Experience About Integrati...Achievement Browser Terms Domain Calendar Spreadsheet Databas...Zhenrenylz 首页热点