基于佬友开源的项目尝试在claudecode中给deepseek增加“识图能力”

基于佬友开源的项目尝试在claudecode中给deepseek增加“识图能力”
基于佬友开源的项目尝试在claudecode中给deepseek增加“识图能力”

目前我一直是使用deepseek的api接入claudecode中去使用的,但是苦于没有识图功能,正好看到有一个佬友的项目,使用其他模型的api来给deepseek增加识图反馈,链接如下

[开源]Visual-Enhancement-mcp,一个增强cc cx识图能力的mcp 开发调优
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI 生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI 生成、润色内容已使用截图方式发出 最近在c…

然后我就去尝试了一下,使用阿里百炼平台的qwen3-vl-plus作为识图模型
首先在ccswitch中配置mcp

image
类型选择stdio,MCP标题自定,命令选择npx
然后输入如下参数,apikey要自己填写
-y
mcp-vision-server
–api-base-url
https://dashscope.aliyuncs.com
–api-path
/compatible-mode/v1/chat/completions
–api-key
sk-114514vivo50kfc
–model
qwen3-vl-plus
之后点击应用配置就好了,注意启用到应用给claude勾选上
然后deepseek就应该可以识图了,可以输出/mcp检查一下
image
但是有一个问题,就是在文件夹中测试,将文件的图片名称告诉deepseek,并不能顺利调用mcp
image
ai查询了一下,应该是会默认使用内置 Read 工具去读取图片,可以在ccswitch中加一个提示词
简单写一下工作规则
## 图片读取规则
当看到 [Image #N] 占位符时,说明有图片被拖入但模型无法直接读取。按以下顺序查找,找到后立即用 vision_analyze 或 vision_ocr 分析,不要停下来问我路径:
*1. 先检查当前工作目录下最近生成的图片(temp_*.jpg、UUID 格式的 .png)
2. 再检查 C:\Users\lenovo\Pictures\Screenshots\ 下最近修改的图片文件
3. 按文件修改时间倒序排列,取最新的那张就是刚拖入的图片
用户也可以直接发路径,例如:看这张图 C:\Users\lenovo\Desktop\xxx.png
image
这样再测试就行了,虽然不知道为什么会有红色报错
image
佬友要是有什么其他方法或者改进方案欢迎来讨论

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文