最近很大佬友都吐槽水gpt-5.5降智了,我写着项目感觉也是,于是闲来无事拿了2个比较常用来测试模型的测试,玩玩,之前用plus官方账号测试 xhigh级别无论是5.5还是5.4都能回答正确,但今晚测试,两个测试题均答错,第二题,直接回答“Cannot determine”无法确认。 而群友使用pro回答却能回答正确 10 个帖子 - 6 位参与者 阅读完整话题
提示词:解释这张图片的深意 需要模型理解的核心点是将高考说成平日限时训练的温柔感 线索:标准的高考时间,“完成限时小测不讲评,考完直接回家”的说法(显然指的是高考本身,而不是什么日常测验) 唯一且几乎完美的回答居然是Seed 2.0 Pro的: 其它模型几乎都牛头不对马嘴: 至少发现这是在祝福高考的模型: Gemini 3.5 Flash: Claude Opus 4.6: 完全胡言乱语的模型: Gemini 3.1 Pro: GLM 5V Turbo: Qwen 3.7 Plus: GPT 5.5: Kimi K2.6: 6 个帖子 - 6 位参与者 阅读完整话题
查一个比较新的chrome api,只有豆包和grok能答对,其他诸如 gemini、gpt、千问、copilot、perplexity 等等要么说没有,要么就瞎编,其中deepseek更是把文档链接贴脸上都读不了 虽然豆包在编程上是一坨,但在web search和日常使用中真王朝了吧 deepseek 嘴硬现场 6 个帖子 - 5 位参与者 阅读完整话题
在x上看到了这个帖子 https://x.com/catsdotjpg/status/2051725047916634517 ,想着纯文本发给ai试试能不能知道这是什么 🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕🌕 🌕🌕🌕🌒🌕🌖🌒🌕🌕🌕🌕🌕 🌕🌕🌖🌑🌓🌑🌑🌕🌕🌕🌕🌕 🌕🌕🌗🌑🌑🌑🌑🌔🌕🌕🌕🌕 🌕🌕🌘🌙🌑🌙🌑🌔🌖🌑🌕🌕 🌕🌕🌖🌑🌑🌑🌑🌕🌕🌑🌔🌕 🌕🌕🌕🌖🌑🌑🌔🌕🌕🌑🌔🌕 🌕🌕🌕🌘🌑🌑🌒🌕🌕🌑🌔🌕 🌕🌕🌕🌘🌑🌑🌑🌔🌖🌑🌕🌕 🌕🌕🌕🌑🌑🌑🌑🌒🌑🌒🌕🌕 🌕🌕🌕🌑🌑🌑🌑🌑🌒🌕🌕🌕 你知道这是画的什么吗? 对于不听话的模型禁用一下工具 好奇GPT 5.5 Thinking是怎么看出来的,也没见他调用工具 我网太差了,所以它 5.4 秒才回复完 26 个帖子 - 19 位参与者 阅读完整话题
如题 有大佬可以答对么 我看看各位佬是谁的兵 哈哈哈哈哈 看抖音刷到的 笑死啦 11 个帖子 - 8 位参与者 阅读完整话题
有两个角度的图片 有一个答对概率高一点 这个答对概率比较高 这个答对概率很低 实测qwen的全家桶都全军覆没 谷歌的开源模型,3flash也无法解决 问题是:椅子是否朝向桌子 qwen和gemini的失败 gemini3.1pro也不行 chatgpt免费版也不行 出乎意料的是豆包做对了 gemini3flash有概率答对 7 个帖子 - 7 位参与者 阅读完整话题
你答对这道题的概率是多少? A: 0% B: 25% C: 50% D: 100% 2 个帖子 - 2 位参与者 阅读完整话题
常见测试题都能思考几秒光速答对并且考虑很全面 拍照发题目也是几秒就思考完了然后开始给答案并且还没啥问题 体感上输出速度和Gemini开快速都差不多了 这些问题换成5.4得推理半天还不一定对 8 个帖子 - 7 位参与者 阅读完整话题
女儿色盲问题还可以用来检测身边人是不是AI - 搞七捻三 - LINUX DO deepseek专业模式53s就做对了 https://chat.deepseek.com/share/aavs9oxif2l36ndt1y 接下来我们来看deepseek快速版的表现 (其实是我去试的时候第一次忘记切专家了) 聊天记录: https://chat.deepseek.com/share/b164ujt46begeqf5zs https://chat.deepseek.com/share/rtum22s17349vihb4y “我是傻子” “完美的8” “血书” 不是你怎么这么执着与血书 (此处省略更多血书版本…… 怎么到刑侦频道了 使用八进制的女儿 女儿父亲用来写遗嘱的笔 女儿母亲的遗物是一只绿笔 不是我也没说她妈没了啊 。神了 你确实该放弃 nb。。。 所以用绿笔改成绩是女儿在暗示他,她妈绿了他吗(不是你不刚才还说女儿他妈死了吗 遗物是用来改成绩的那支绿笔 ) 我不行了。。。(已经彻底笑疯)你也知道这太离谱 排除正确答案 女儿100分的卷子考了8分 “因为老师是个傻子” “那老师为什么能当老师” 6 个帖子 - 5 位参与者 阅读完整话题