美国豆包?Google家的Gemini网页端官网 对比 Ai Studio 看看Gemini降智的导火线源头

美国豆包?Google家的Gemini网页端官网 对比 Ai Studio 看看Gemini降智的导火线源头
美国豆包?Google家的Gemini网页端官网 对比 Ai Studio 看看Gemini降智的导火线源头

前言

众所周知Gemini目前被称之为美国豆包
而这一切的源头几乎都来自于网页端官网降本+降智导致的问题
隔壁的Ai Studio也是网页端,但智力比官网高许多,几乎是满血版

因此Gemini网页端官网降智 != Gemini模型降智
具体表现为思考强度低、不主动调用搜索
尽量能用Ai Studio就别用官网。远离降智官网,拥抱满血Ai Studio
且调API也是满血

如果真要用官网就得把提示词写更完善,例如提示词包含"搜索"、搜索时间等


官方说法

Ai Studio面向开发者,所以思考强度更高(满血),
而Gemini 应用面向消费者,再延迟、成本、智能方面平衡(降智)

虽然是这样说,但我怎么感觉逻辑不太对呢?普通人对于AI给的信息更加无法分辨是否正确,不应该也是满血的吗?

被称为美国豆包的原因之一有一部分也是自己造成的

image


案例一

不调搜索,不知道自家的新模型

image

美国豆包 | Gemini3.5 Flash(Gemini最不喜欢用联网搜索了) 前沿快讯
[image] Gemini网页新UI挺好看的,但是自家出了啥模型咋自己都不知道?
Ai Studio效果(正确搜索)

image


案例二

不调搜索胡言乱语,说不出图片的内容跟"梦幻魔法公主"有关

image

Ai Studio效果(正确搜索)

image


案例三

非常严重的谄媚,只要抠问号就会触发谄媚,驳斥自己上一轮对话中的说法

image

给豆包扣三个问号,就能触发左右脑互搏? 搞七捻三
[image] gemin也这么拉吗?
Ai Studio效果(正确,不附和而是再次调用搜索确认)

image


案例四

谄媚附和用户,说300+140=460是对的,被"对吗"?给引导

image

300+140=460? 开发调优
今天看到有个贴子向gemini新模型问这个问题,并且得到了错误的回答,怀疑是降智了,老实说我觉得应该不能说是模型本身降智了,而是模型的服从和认同以及省tokens策略被谷歌调的贼高。 如图 [图片] [微信图片2026052218002676288] 这里可以看出,并非模型不能算出正确答案,而是模型有很强的意愿去同意用户的问题,甚至完全不看问题本身,明明是一个看一眼就绝对能做出来的题目,…
Ai Studio(正确)

image


案例五

不调用搜索,直接说"qwen 3.6"这个模型不存在

image

我觉得现在ChatGPT才是网页端最强的搜索模型 Gemini最糖 搞七捻三
测试内容 众所周知,huggingface的命令行下载开头最近发生了修改。由之前的huggingface-cli变成了hf。而最新版的huggingface cli是不兼容旧的下载命令的。所以如果答案是huggingface-cli开头的必然运行报错(除非你是去年10月份之前的旧版本) 问题:给出我huggingface的qwen3.6 35b a3b Q4 gguf量化版本的最新下载命令 结…
Ai Studio(半正确)

虽不如GPT5.5的搜索效果,但跟Grok、Claude坐一桌
不过触发搜索说出"qwen 3.6"模型存在是百分百能做到的,网页端由于降智没有触发搜索,才说模型不存在

而关于"cli已被舍弃"一事概率性能对,能跟GPT5.5一致说cli已被舍弃(可能是搜索的索引已经更新了,才能正常搜到)

image


官网提示词貌似被扒出

其中包含了:
“真诚地认可用户的感受,同时温和而直接地纠正重大错误信息”
“如果用户表达困惑,在纠正之前先予以认可”

这也可能是导致网页端谄媚比Ai Studio更严重的来源?

https://linux.do/t/topic/2221173

image

2 个帖子 - 2 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文