小测结论:2.7做题几乎都在胡说八道,M3测试好了不少,文科题回答正确率比2.7强了许多,高中的数理化还是做不明白。 不吹不黑。网页版直接上图, 回答以下选择题:元朝以大都为中心修筑了四通八达的驿道,并在全国范围内建立了驿站和急递铺系统。元政府意在( ) (A) 保证中央对地方的有效控制 (B) 为人们提供交通和生活服务 (C) 加强内地与边疆的经济交流 (D) 保障国家政令得到迅速贯彻 2.7做不明白的题目,M3一次性做对 一道物理题就被干废了,无限思考。 “独竹漂”是一种传统的交通工具,人拿着竹竿站在单竹上,人和单竹筏在水里减速滑行,人与竹筏相对静止,则( ) (A) 人受合力为零 (B) 人对竹筏的力方向竖直向下 (C) 人和竹筏的重心在竹筏所在的竖直面上 (D) 人和竹筏构成的整体的重心,与杆受到合力的作用线在同一竖直平面上 回答以下选择题:我国《新型冠状病毒感染的肺炎诊疗方案(试行第三版)》中提到可试用利托那韦进行抗病毒治疗,利托那韦的化学式为C37H48N6O5S2,下列关于利托那韦说法中正确的是( ) (A) 氢元素的质量分数最高 (B) 由5种元素组成的混合物 (C) 利托那韦中共含98个原子 (D) 氮、氧元素质量比为21:20 直接做错 1 个帖子 - 1 位参与者 阅读完整话题
先别拿网页版测,现在有 bug 适应性思考和 effort 设置了没用,还是秒回复不思考,那肯定答不对 脑筋急转弯 (老步骤,新模型先来测这个,也不能说没意义,不只是coding,日常工作场景都会用 红绿色盲 洗车 糖果问题 妈妈的睡觉问题 比 opus4.6 表现还要好一点,opus4.7 就别说了当时测完真的一坨 但是升级 claude code cli 到 v2.1.154,怎么感觉这么卡呢? 回复也很慢,不过我感觉问题不大,只要对了,慢就是快 代码能力 测试中,有结果这里同步 ultracode 这是什么?动画倒是花里胡哨的 测试下 终于可以不用万年 4.6 了 16 个帖子 - 11 位参与者 阅读完整话题
主要硬件环境:4060TI 16G 显卡 主要软件环境:LM Studio 0.4.14,pdf2zh-next 2.8.2 win版,均在win机器上直接部署 所用模型详细信息: 参数使用: { "temperature": 0.7, "top_p": 0.6, "top_k": 20, "repetition_penalty": 1.05, "max_tokens": 4096 } 参考的官方来源: huggingface.co tencent/Hy-MT2-7B · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 使用一篇ICCV 2019的论文作为测试,翻译结果: Chen_Drop_an_Octave_Reducing_Spatial_Redundancy_in_Convolutional_Neural_Networks_ICCV_2019_paper.no_watermark.zh-CN.dual.pdf (1.0 MB) 个人点评: 速度很快,4并发目测大概有50-60tok/s的速度? 开了20k上下文,显存占用不到6G(实际上用不上这么大上下文,纯测试玩) 翻译质量还是比较惊喜的,比不了专业模型专业工具但是7B的小模型绝对够用了。 个人感觉那种吃灰的mac mini可以部署一个,给局域网内的设备提供翻译服务(我用的openai接口),基本上相当于可以免费翻译了,速度也能看。 7 个帖子 - 3 位参与者 阅读完整话题
按群里的说法是 qwen3.7 正式版 不过和我小测的 qwen3.7 预览版区别很大 预览版是做不对糖果问题的 不知道是不是预览版和正式版的区别就是这么大还是别的原因 qwen.ai Qwen Studio Qwen Studio offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts. 12 个帖子 - 12 位参与者 阅读完整话题
感觉这个问题可以测试下AI git reset --mixed b && git add . 与 git reset --soft b && git add . 一样吗?如果不一样,是什么情况下不一样? 如果把git add .改为-A,情况又如何? kimi 2.6快速测试的一塌糊涂,然后thinking也有问题。 deepseek还行 1 个帖子 - 1 位参与者 阅读完整话题
首先我用的是 kilo code vscode 扩展,不过由于deepseek-v4 才出来,kilo code还不支持 deepseek-v4的 reasoning_content 会报下面这个错误: The reasoning_content in the thinking mode must be passed back to the API. 我 fork 了一份 kilo code 自己修改适配了一下。 从昨天开始,我使用GLM 开发我的一个输入法的一个比较复杂的功能,和GLM5 智斗了一个晚上加今天的一个早上,直接把我的 bailian coding 干没了,都没给我实现出来,这个功能还是比较难的。刚好看到deepseek-v4 看到出来了,正好可以给我接力一下。于是基于修复完kilo code 的错误后,带着deepseek-v4 做开发这个功能,我用的是flash 版本。经过1个多小时的coding,终于做出来了。 开始的时候, 思维链直接思考了接近10分钟,不过,好在功能实现完全没问题,不像glm5一直捣乱,有时候还回归原来的bug。还有不知道为什么 flash 模型的思考会变全英文。 至于 deepseek v4 pro 模型我没有试,因为其实常用的还是 flash,毕竟它出活快呀。 2 个帖子 - 2 位参与者 阅读完整话题