WWW.YOUINFO.SITE
标签聚合 gemini3.5

/tag/gemini3.5

LinuxDo 最新话题 · 2026-06-04 09:21:04+08:00 · tech

同一套代码,同样的指令,让 opus 4.8 和 gemini3.5 做了一次,结果令人震惊: 指令:查下 seed-faq.ts,它是初始化的提问内容。我现在手头没有现成的文档,需要通过整个产品的结构和代码中的定义,总结出一份faq,思路是这样的,通过web 项目中左侧导航,一个一个来总结,包括功能描述,名词定义,数据计算方式,作用等,尽量多的总结出faq,开工吧 先用 Antigravity IDE 的gemini3.5跑,非常快,1 分钟,灌入了 21 条faq数据(什么玩意)我个人表示非常失望,怎么可能就总结出 21 条。 没办法,只能靠 opus4.8试试,到我现在码字的时刻,已经跑了 36 分钟了,还在分析,它特么真的按导航菜单一个一个去总结,甚至去重新翻代码去了 从写代码来看,opus是我永远的神,不是引战贴,各位佬可以表达自己的偏好 3 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-24 10:04:19+08:00 · tech

gemini-3.5-flash这个安全对齐在搞什么呀?还有反蒸馏的内置系统提示词让模型不输出正常思考过程,我通过压力提示词让它尽力输出的更好更长的代码的提示词还让他识别成越狱了,导致一大串的要求相当于直接失效,并且明显的降低了模型的能力,模型也相当于没有思考,就直接进行了输出,因为这个问题模型没有按照用户的指示进行,而是直接与用户的提示词进行了一个对抗,这真的是太糟糕了,我真的不知道谷歌他们在搞什么? 翻译: 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 23:03:40+08:00 · tech

今天用了几个账号用gemini3.5,都是重度使用,其中一个账号用了差不多一天,额度掉的很慢。而且只掉gemini3.5的额度,另外一个账号可能是黑号,不停的retry,在最后换了一个账号,不到一个小时额度直接掉,gemini3.5和gemini3.1的额度同时往下掉。真的搞不懂了。今天的家庭组额度好像没有共享了,给了单独的额度了吗? 10 个帖子 - 6 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 22:16:25+08:00 · tech

大意就是说o和a的模型能力完全是靠堆卡把推理深度拉到一个非常疯狂的程度来实现的,然后我又问为什么谷歌不堆卡,他说谷歌是上市公司,没法这么烧干钱去买卡,现在o和a这样的推理模式完全是爆亏,谷歌自己有卡但还是给a出去用也是钱的问题,最后问了下x的ai为什么那么拉,他说x的卡看着多,实际数据中心建的很仓促,稳定性很差 感觉都还挺合理的,像是真的在和业内人士聊天一样 3 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 16:34:03+08:00 · tech

总所周知,gemini人称美国大豆包,在幻觉和谄媚这一块无出其右。 那么从gemini的新档位和3.5f的测试,应该可以窥见3.5pro的一角。 在日常网页chat体验中,搜索,个性化这两个因素是非常重要的。 从一个问题【你觉得我会喜欢上伊那牡丹,酒醉身姿似百合花般吗。】来测试不同档位下的回答并分析 刻意用一个容易不触发搜索的奇怪名字来测试gemini的反应。 ————————————————————————————————— 【测试a,3.5f,no think】 太长不看的图片 (点击了解更多详细信息) 评价:依旧搜索不积极。完全不调用搜索。拉完了 【测试b,3.5f,think 未触发搜索】 太长不看的图片 (点击了解更多详细信息) 评价:多轮测试中,仅部分轮次存在搜索,不积极的搜索会导致所有问题中丧失时效性,无法对齐用户默认语境。 【测试c,3.5f,think 触发搜索】 太长不看的图片 (点击了解更多详细信息) 评价:在10轮反复测试中,仅触发了4次搜索,并且有一次用了非常抽象的记忆模式去解析我,把我极度标签化的理解为了一个类似机器人的东西进行分析。 【测试d,3.1p,Medium 】 太长不看的图片 (点击了解更多详细信息) 评价:在更新之前,搜索触发率较低,更新后,m档的搜索触发率居然提高到了100%,罕见的恢复了智商?有点小惊喜。 【测试e,3.1p,high】 太长不看的图片 (点击了解更多详细信息) 评价:思考依旧陷入死胡同,错误且混乱的类比。对比字数发现,high模式下并不会提高字数输出,在1000字左右。在要求详细分析后,并不会给出更多的篇幅分析,仅提高到1500字,在分点后,每一条依旧分析极为浅度,不如gpt恐怖的输出额度。 对比3.5f think和3.1p high在触发搜索后的回答。 可以看到在3.5在个性化的理解上,过度抽象用户的行为明显减少,在记忆功能没有明显变化的情况下,存在不错的改善,但并不是很明显。 总体来看,3.5p的表现并不会很乐观,在搜索积极性上不会有结构性的改善,并没有推出类似gpt的多段式搜索思考功能。 过度抽象化理解的情况有好转但是并不显著。 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-20 11:17:09+08:00 · tech

从 没什么事情就不要随便蹬gemini3.5flash了 、 我说antigravity半年磨一剑拉了坨大的有没有懂的。。 继续讨论: 早上更新了Antigravity,用上了 Gemini-3.5-flash。应该很久没用上这么快的模型了,我愿称之为: 窜稀式的快 。 像体验的话,可以直接在Antigravity 里面体验,额度还挺耐烧的,别像这位佬一样用API(为佬的钱包默哀)。 对了,还有最重要的质量方面…算了,我们不能去谈论不存在的东西。 我让它给一个小网页加一个主题,它给我端出来这一坨。logo 已打码, 首页 右边的字是它设计的 水墨风格 主题。 题外话:Antigravity 有一个很谜的设计,一些没跑完的子任务会折叠起来,但是当前会话是结束状态。然后点进去可能要你授权,可是它啥都没说,我怎么知道还要进去授权? subagent 结束之后,你得点左上角的导航回主会话 您现在可以直接刷新您本地运行的 http://localhost:8680 。这次全站的色彩与线条已经彻底融为一体,毫无瑕疵!请您再次检查! 好了,继续GPT 吧 1 个帖子 - 1 位参与者 阅读完整话题