之前我对Agent挺不屑一顾的,觉得上限还是要看基座模型。但是前一段时间,我也是终于用上了Claude Code。刚开始用的时候,自然是刹不住车,额度一会儿就用完了。那没办法,用CC Switch换成DeepSeek的api试试,没想到性能居然差了那么多!完全是一个天上一个地下,怪不得DeepSeek也要开发自己的Agent。我也是萌生了自己开发Agent的想法。 说干就干。api上我选择了好评如潮的DeepSeek官方api(主要是便宜)。第一步的目标很简单,我从GitHub上下了一个仓库叫MisterQueen(一个国际象棋项目),我需要让Agent可以帮我总结这个项目。我用的是Windows,那就加一个PowerShell的tool_call吧! 代码如下: import json import subprocess import requests client = requests.Session() client.headers.update({ "Accept": "application/json", "Authorization": "Bearer YOUR_DEEPSEEK_API_KEY", }) def run_powershell_cmd(cmd): full_cmd = ( "[Console]::OutputEncoding=[Text.Encoding]::UTF8; " "$PSStyle.OutputRendering='PlainText'; " f"{cmd}" ) result = subprocess.run( ["pwsh", "-Command", full_cmd], capture_output=True, text=True, encoding="utf-8", ) return f"stdout:\n{result.stdout}\nstderr:\n{result.stderr}" def post_deepseek( messages, model="deepseek-v4-pro", thinking=True, reasoning_effort="high", max_tokens=None, response_format_type="text", stop=None, stream=False, stream_options=None, temperature=1, top_p=1, tools=None, tool_choice=None, logprobs=False, top_logprobs=None, ): url = "https://api.deepseek.com/beta/chat/completions" json_data = { "messages": messages, "model": model, "thinking": {"type": "enabled" if thinking else "disabled"}, "reasoning_effort": reasoning_effort if thinking else None, "response_format": {"type": response_format_type}, "stream": stream, "temperature": temperature, "top_p": top_p, "logprobs": logprobs, } if max_tokens is not None: json_data["max_tokens"] = max_tokens if stop is not None: json_data["stop"] = stop if stream and stream_options is not None: json_data["stream_options"] = stream_options if tools is not None: json_data["tools"] = tools if tool_choice is not None: json_data["tool_choice"] = tool_choice if logprobs and top_logprobs is not None: json_data["top_logprobs"] = top_logprobs return client.post(url, json=json_data, stream=stream) def post_deepseek_handle_tools(**kwargs): kwargs["messages"] while True: resp = post_deepseek(**kwargs) resp_json = resp.json() choice = resp_json["choices"][0] finish_reason = choice["finish_reason"] message = choice["message"] kwargs["messages"].append(message) if finish_reason == "stop": return kwargs["messages"] elif finish_reason == "tool_calls": tool_calls = message["tool_calls"] for tool_call in tool_calls: function = tool_call["function"] assert function["name"] == "run_powershell_cmd" arguments = json.loads(function["arguments"]) cmd = arguments["cmd"] user_conformation = input( f"AI wants to run powershell command:\n{cmd}\nDo you allow it? (y/n): " ) if user_conformation.lower() != "y": tool_result = f"Tool call rejected by user. Command was:\n{cmd}" else: tool_result = run_powershell_cmd(cmd) kwargs["messages"].append({ "role": "tool", "tool_call_id": tool_call["id"], "content": tool_result, }) else: raise ValueError(f"Unexpected finish_reason: {finish_reason}") messages = post_deepseek_handle_tools( messages=[ { "role": "system", "content": "你是一个人工智能助手", }, { "role": "user", "content": "总结MisterQueen文件夹内的项目", }, ], tools=[ { "type": "function", "function": { "name": "run_powershell_cmd", "strict": True, "description": "运行powershell命令", "parameters": { "type": "object", "properties": { "cmd": { "description": "要运行的powershell命令", "type": "string", } }, "required": ["cmd"], "additionalProperties": False, }, }, } ], ) print(messages[-1]["content"]) 运行结果: AI wants to run powershell command: Get-ChildItem -Path “MisterQueen” -Recurse -Depth 3 | Select-Object Mode, Name, Extension, FullName | Format-Table -AutoSize Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\README.md” Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\Makefile” Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\LICENSE.md” Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\src\main.c” -Head 30 Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\src\search.c” -Head 40 Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\src\uci.c” -Head 30 Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen.gitignore” Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\scripts\parser.py” -Head 30 Do you allow it? (y/n): y AI wants to run powershell command: Get-Content “MisterQueen\scripts\group.py” -Head 30 Do you allow it? (y/n): y 4 个帖子 - 2 位参与者 阅读完整话题
Qwen3.7再进化:全能「多模态」智能体基座 今天,Qwen3.7-Plus 正式发布! Qwen3.7-Plus 全面升级视觉理解、视觉编码、GUI 操作与真实世界推理能力,同时保持 Coding、工具调用和生产力工作流方面的完整智能体能力,是新一代视觉与语言一体化的智能体基座。Qwen3.7再进化:全能「多模态」智能体基座 百炼的api端已经有了 19 个帖子 - 19 位参与者 阅读完整话题
IT之家 6 月 1 日消息,据每日经济新闻从知情人士处确认,理想汽车基座模型部门完成新一轮组织调整, 新增具身工程、具身交互、具身行为三个具身智能相关二级部门,同时自动驾驶变成独立二级部门 。 据了解,这是理想汽车今年以来对智能驾驶、具身智能相关组织部门进行的第二次调整。 IT之家注意到,理想汽车 CEO 李想本月曾表示,“具身智能会有两个阶段,自动驾驶是具身智能的上半场,通用人形机器人是具身智能的下半场。” 在理想汽车今年一季度财报电话会上,李想再度提及机器人。“从长远角度看, 无论是工厂、门店还是用户都需要人形机器人 。从市场格局来看,我们认为创业公司、我们这样步入千亿收入的中厂和更大规模的大厂都会进入机器人赛道。” 李想认为,“从长期来看,人形机器人要实现成规模的商业化和工业化,还需要发展到类似 2010~2015 年电动车所处的水平,至少需要三年以上甚至更久的时间。因此在这个阶段,还有许多技术难题需要攻克,每一个细微环节以及接下来的技术路线都没有达成共识,这些都需要解决”。
V9-Medium (1.5T) https://x.com/elonmusk/status/2058794505508110755 并且 表示 年底会开源一个 0.5T 模型
IT之家 5 月 23 日消息,智元今天宣布推出新一代二阶段 Motion-Between 运控基座模型 BFM-2,号称让机器人拥有“肌肉记忆”。 据介绍,该模型可在任意状态下(IT之家注:静态 or 预设动作 or 随机输入),让机器人自主进行高稳定性的动作插值、动态任务闭环, 为具身智能提供更可靠的运动底座 。 根据官方发布的演示视频,搭载该模型的机器人能够在被打倒在地板的状态下快速站起,还能够自己找平衡。
传统的配置API key的方式,使用python的api接口 直接调用claude code 和 codex 本地工具 使用openclaw,hermes-agent作为底座 哪一种更加便捷高效可控呢?各位大佬在最新的快速开发产品一般采用哪种路径最方便呢 13 个帖子 - 7 位参与者 阅读完整话题
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
目前在 codex 里面折腾了快两周,已经快被素材逼疯了,游戏基座代码差不多完成了,但是就一直在素材上面陷入死循环。 游戏是农场类型的游戏,生成的素材在地面上摆起来总是给人浮空的感觉,就这么一个破玩意儿废老劲了,试了各种阴影效果都盖不了,后面问了 claude 说是 90%素材,10%渲染,然后又让 codex 换方向重新生成,这次路子看起来是对了,但是抠图老是超模,不是这抠多了就是那抠少了,好累。 举例建造一个住宅房屋,怎么解决房屋与地皮融入一体,不漂浮呢?周边加一圈花草呢抠图又容易抠坏,不加把又呈现漂浮感,好头疼。 各位哥哥姐姐对于这种素材生成有好的方案吗?我看 X 上面那些人动不动就是几小时 AI 了一个消息,我真不知道他们是怎么做到那么高的效率的
pi是一个基座项目 需要自己配mcp和sub-agents, 但是他可以自己添加多个模型订阅,他是不是就相当于cc+ccs的结合,我理解的是否正确,各位佬讨论指点一下呗 4 个帖子 - 2 位参与者 阅读完整话题
自己项目实际跑的测试,agent基座是pi sdk 一个单次分析规划子agent,涉及大量工具调用形成结构化文档 测试使用实际的pi workspace和上游文件, 结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。 API来源:kimi minimax glm 来自fireworks AI,其他均为官方订阅,或官方api 测试文件prompt:和打分脚本 全部由codex自己策划实施。 测试文件prompt:和打分脚本: 归档.zip (24.3 KB) 1 个帖子 - 1 位参与者 阅读完整话题
题主现在vibe主要在用GLM、Mimo、Qwen基座下的Claude Code。三者优先级依次递减,根据前一个的coding plan有没有击穿决定是否启用后一个。 这种情况下问题就很显然了,每次都要重配环境变量。 (因为三个模型base url就不一样,因此不能通过配sonnet/opus/haiku这样来切换,只能重配环境变量重启claude code) 这有啥好办法吗?比如搞一层代理,claude实际上只和代理相连,代理再一键切换到不同base url、不同secret key下的不同模型。 5 个帖子 - 3 位参与者 阅读完整话题
去年DeepSeek R1出的时候,还出了好几个蒸馏小模型,基座是qwen2.5和llama3,现在v4也有思维链,大概不会有R2了,正好前端时间qwen3.5和qwen3.6出了,不知道会不会继续搞蒸馏小模型,当然最好是直接拿v4 pro做个小模型 1 个帖子 - 1 位参与者 阅读完整话题
作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,北京微面科技有限公司(以下简称“微面科技”)近日完成数百万美元融资,由顺为资本投资。 微面科技聚焦自研人类感知理解基座模型,打造新一代人机交互范式,创始团队主要来自清华大学,具备大模型、人机交互、软件工程与医学复合背景。 当前,AI交互存在一个隐形天花板:极度依赖用户显性输入,缺乏对隐性非语言信息的感知。研究表明,人类表达中非语言信息高达55%,但现有的机器视觉只看见动作,却无法穿透皮肤洞察情绪波动或生理疲劳。 无论是物理世界的具身机器人还是数字世界的语言大模型,由于缺乏高精度多模态人类状态数据的输入,都只能做机械的被动响应,缺乏主动共情的闭环能力,无法执行更加泛化的任务。 针对这些痛点,微面科技基于 rPPG(远程光电容积描记)核心技术,全栈自研面部基座模型 FacePhys,可实时输出超过120项指标,覆盖心率、心率变异性(HRV)、呼吸率、面部动作单元、眼动特征、情绪维度及语音特征等多个方向。配合HRV情绪生理晴雨表绑定心率与急剧情绪,模型可识别假笑和压抑情绪,获取无法伪装的客观生理真相,为大模型提供生理情绪数据入口。 此前,光照变化、头部运动等噪声,一直是 rPPG 生理感知技术落地中的关键难题。为解决这一问题,微面科技构建了万人级临床标注数据集,包含数千万测量采样点,覆盖不同肤色及复杂场景,并在安贞医院临床实验中完成验证,将复杂生理状态建模能力融入基座模型。 进一步,微面科技还将“状态空间模型”引入生理信号建模。 创始人唐健凯介绍称,这一逻辑与大语言模型“预测下一个 Token”类似:大模型预测的是下一个词,而状态空间模型预测的是人体下一时刻的生理行为状态,从而持续追踪心跳、呼吸等生命体征的动态变化, “本质上,是把心跳建模成一个连续物理过程,而不是离散视频帧的拼接。” 这一突破使系统能够更准确地捕捉心脏搏动的时间动态特征,无接触实现望闻问切。核心指标上,其心率检测精度≤2 BPM,达到医疗级标准;端侧推理延迟≤10ms,可实现实时响应;同时,端侧小模型参数规模仅为0.2M,可直接运行于普通手机和摄像头设备,无需依赖云端算力。 在生理理解基础上,微面科技还进一步构建了多模态“人类理解系统”。 通过融合动作、姿态、眼动等空间特征,配合HRV情绪生理晴雨表绑定心率与急剧情绪,模型不仅能够识别用户情绪,还能够进一步理解行为背后的需求与动机,甚至预测用户的交互意图和动作轨迹,实现察言观色和知行先觉,为大模型提供生理情绪数据入口。 基于这一生理感知基座模型,微面科技也在同步推进软硬件一体化布局。 图源企业 软件层面,公司通过 SDK/API 向机器人、智能座舱、健康设备厂商输出算法能力,目前已在三大场景实现规模化落地:家庭机器人领域,与海尔机器人等客户达成量产合作;康养机器人领域,为养老院和社区提供快速健康筛查;仿生机器人领域,实现毫秒级低延时的自然交互体验。在车载方向,公司正与某头部 Tier 1 供应商联合推进驾驶员疲劳监测方案的技术验证及量产准备。 硬件层面,公司则推出搭载 FacePhys 模型的嵌入式摄像头模组。其中,核心产品 Findings 科研数据采集系统,主要面向科研机构与医院提供高精度数据采集终端,已进入批量采购阶段。 以下为硬氪与唐健凯的交流节选(略经编辑): 硬氪:国内外还有其他公司在用rPPG路线做生理和情绪识别吗? 唐健凯: 国外已经有一些公司在做相关方向。比如 FaceHeart,主要聚焦心脏健康监测,并已经获得 FDA 认证,目前更多服务于远程医疗场景。但我们的方向不只是心率监测,还会进一步覆盖情绪、压力、眼动行为等更丰富的维度。从能力边界来看,我们是在生理感知的基础上,继续向“人的状态理解”延伸。 国内也有团队在做 rPPG,但大多数方案还是“录制视频+云端分析”的模式。通常需要先录制30秒以上的视频,再上传到云端统一计算,整个分析过程可能还需要几十秒,很难做到实时响应。一旦用户中途出现运动、光照变化或者姿态波动,整体鲁棒性就会明显下降。 硬氪:为什么微面科技能够把基于 rPPG 的生理感知做得更精准? 唐健凯: 模型层面,我们做了大量优化。核心思路是用“状态空间模型”去预测人体下一时刻的生理状态。人的生理状态并不会突然从心率60跳到100,它本身具有连续性和周期性。我们的状态空间模型会捕捉这种稳定变化规律,再结合医学上的周期波动特征,持续预测人体当前状态。 此外,数据质量也很关键。我们的训练数据并不是靠大模型“虚拟打标”,而是来自医院合作与医疗级设备采集。目前已经建立了万人级临床数据库,因此数据客观性和准确性会更高。 在情绪理解上,我们也有一套完整逻辑。比如,心理学研究已经证明,高 HRV 往往对应更积极、放松或者兴趣更高的状态;而剧烈运动时心率升高,则未必意味着情绪波动。因此,我们不仅会看生理指标本身,还会结合动作、姿态、眼动等空间特征,一起理解人的真实状态。 简单来说,我们是在把“时间维度上的生理连续性”和“空间维度上的视觉感知能力”融合到一个统一模型中,让 AI 同时理解人的生理、情绪和行为。 硬氪:为什么会进一步做硬件模组? 唐健凯: 视频和语言不一样,它的信息量非常大。如果所有数据都上传到云端处理,不仅延迟高,也会影响实时交互体验。因此,我们更倾向于端侧处理,让感知和推理直接发生在设备本地,这样响应会更及时,交互也会更流畅。 另一个重要原因是隐私。我们处理的是生理和情绪相关数据,本身属于较为敏感的信息。尤其在医疗、健康管理等场景里,用户会更希望数据留在本地设备,而不是全部上传到云端API。 投资人观点 顺为资本: 公司研发的实时生理与情绪理解基座模型,在技术路线和底层架构上具备全球唯一性。该技术可快速落地智能座舱、机器人和智能硬件等多元场景,应用空间广阔。顺为高度认可团队的技术与产品化能力,愿与微面科技在人、车、家全场景深度协同、长期陪伴,共同开拓下一代人机交互与具身智能赛道的商业前景。