WWW.YOUINFO.SITE
标签聚合 gemini3

/tag/gemini3

LinuxDo 最新话题 · 2026-06-07 12:41:02+08:00 · tech

今年高考作文已经新鲜出炉啦,感觉时间真的过得好快啊,闲来无事,让ClaudeOpus4.6,Gemini3.1pro,GPT5.5-xhigh生成了全国一卷和全国二卷的作文,佬友来选选,哪篇文章能打动你呢?也欢迎各位分享你生成的版本啊? 是否含人工智能生成内容:是 全国二卷: 阅读下面的材料,根据要求写作。(60分) “日月不失其体,故蔽而复明;江汉不失其源,故穷而复通。” 在个人成长、社会发展乃至文明演进中,总会出现困顿、挫折,甚至会有风高浪急、惊涛骇浪的考验。然而,日月虽有被遮蔽之时,只要本体未失,终能重放光明;江河即使遭遇险阻,只要源头不竭,终能贯通入海。 以上材料引发了你怎样的联想和思考?请写一篇文章。 要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。 Gemini GPT claude 全国I卷: 阅读下面的材料,根据要求写作。(60分)词语是表达思想情感的载体,也是展现社会生活变化的窗口。当前,世界之变、时代之变、历史之变正以前所未有的方式展开。青年是常为新的,在你的成长过程中,你对哪一个词语的理解发生了变化?这变化有你成长的印记,对你有特殊的意义……以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。 gpt : Claude: Gemini(重新链接) 现在是投票时间 gemini gpt Claude 点击以查看投票。 19 个帖子 - 10 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-04 09:21:04+08:00 · tech

同一套代码,同样的指令,让 opus 4.8 和 gemini3.5 做了一次,结果令人震惊: 指令:查下 seed-faq.ts,它是初始化的提问内容。我现在手头没有现成的文档,需要通过整个产品的结构和代码中的定义,总结出一份faq,思路是这样的,通过web 项目中左侧导航,一个一个来总结,包括功能描述,名词定义,数据计算方式,作用等,尽量多的总结出faq,开工吧 先用 Antigravity IDE 的gemini3.5跑,非常快,1 分钟,灌入了 21 条faq数据(什么玩意)我个人表示非常失望,怎么可能就总结出 21 条。 没办法,只能靠 opus4.8试试,到我现在码字的时刻,已经跑了 36 分钟了,还在分析,它特么真的按导航菜单一个一个去总结,甚至去重新翻代码去了 从写代码来看,opus是我永远的神,不是引战贴,各位佬可以表达自己的偏好 3 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-24 10:04:19+08:00 · tech

gemini-3.5-flash这个安全对齐在搞什么呀?还有反蒸馏的内置系统提示词让模型不输出正常思考过程,我通过压力提示词让它尽力输出的更好更长的代码的提示词还让他识别成越狱了,导致一大串的要求相当于直接失效,并且明显的降低了模型的能力,模型也相当于没有思考,就直接进行了输出,因为这个问题模型没有按照用户的指示进行,而是直接与用户的提示词进行了一个对抗,这真的是太糟糕了,我真的不知道谷歌他们在搞什么? 翻译: 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 22:16:25+08:00 · tech

大意就是说o和a的模型能力完全是靠堆卡把推理深度拉到一个非常疯狂的程度来实现的,然后我又问为什么谷歌不堆卡,他说谷歌是上市公司,没法这么烧干钱去买卡,现在o和a这样的推理模式完全是爆亏,谷歌自己有卡但还是给a出去用也是钱的问题,最后问了下x的ai为什么那么拉,他说x的卡看着多,实际数据中心建的很仓促,稳定性很差 感觉都还挺合理的,像是真的在和业内人士聊天一样 3 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 16:34:03+08:00 · tech

总所周知,gemini人称美国大豆包,在幻觉和谄媚这一块无出其右。 那么从gemini的新档位和3.5f的测试,应该可以窥见3.5pro的一角。 在日常网页chat体验中,搜索,个性化这两个因素是非常重要的。 从一个问题【你觉得我会喜欢上伊那牡丹,酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析 刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。 ————————————————————————————————— 【测试a,3.5f,no think】 太长不看的图片 (点击了解更多详细信息) 评价:依旧搜索不积极。完全不调用搜索。拉完了 【测试b,3.5f,think 未触发搜索】 太长不看的图片 (点击了解更多详细信息) 评价:多轮测试中,仅部分轮次存在搜索,不积极的搜索会导致所有问题中丧失时效性,无法对齐用户默认语境。 【测试c,3.5f,think 触发搜索】 太长不看的图片 (点击了解更多详细信息) 评价:在10轮反复测试中,仅触发了4次搜索,并且有一次用了非常抽象的记忆模式去解析我,把我极度标签化的理解为了一个类似机器人的东西进行分析。 【测试d,3.1p,Medium 】 太长不看的图片 (点击了解更多详细信息) 评价:在更新之前,搜索触发率较低,更新后,m档的搜索触发率居然提高到了100%,罕见的恢复了智商?有点小惊喜。 【测试e,3.1p,high】 太长不看的图片 (点击了解更多详细信息) 评价:思考依旧陷入死胡同,错误且混乱的类比。对比字数发现,high模式下并不会提高字数输出,在1000字左右。在要求详细分析后,并不会给出更多的篇幅分析,仅提高到1500字,在分点后,每一条依旧分析极为浅度,不如gpt恐怖的输出额度。 对比3.5f think和3.1p high在触发搜索后的回答。 可以看到在3.5在个性化的理解上,过度抽象用户的行为明显减少,在记忆功能没有明显变化的情况下,存在不错的改善,但并不是很明显。 总体来看,3.5p的表现并不会很乐观,在搜索积极性上不会有结构性的改善,并没有推出类似gpt的多段式搜索思考功能。 过度抽象化理解的情况有好转但是并不显著。 1 个帖子 - 1 位参与者 阅读完整话题