WWW.YOUINFO.SITE
标签聚合 模态

/tag/模态

v2ex · 2026-06-07 18:30:41+08:00 · tech

最近攒了几个更新,又来发帖啦。 全局搜索快捷操作 全局搜索弹窗新增快捷操作,按 ⌘K 打开搜索后直接能看到一堆常用入口:新建对话、新建应用、上传文件、新建文件夹、切换主题、切换语言、跳转设置等等。 App 后台生成不断流 现在 AI 应用在生成内容或者讨论的时候,关掉页面、刷新浏览器、甚至临时断网,任务也都可以在后台继续跑啦。重新打开页面会自动续上进度,不再丢已经生成的内容。 模态筛选 全局搜索(⌘K )和对话页的模型列表也支持模态筛选了,文本/图像/音频/视频/文件,输入输出分开过滤 往期主要功能: 300+ 模型同时回答,并排对比 Git 式对话分支,任意节点 fork 对话分支可视化(右侧分支树面板) 消息大纲导航 知识库提炼 + 记忆注入 后台推流,关页面不断流(对话 / AI 应用) 全局语义搜索(对话/文件/消息/应用) AI 生成网页应用,对话式迭代 yeero.ai ,感兴趣的朋友来试试呀。

LinuxDo 最新话题 · 2026-06-07 11:43:08+08:00 · tech

最近公司打算部署一些多模态模型,例如千问8B这样的,对部门内部&对外提供一些多模态能力,我的平台只要是调度cv算法用的,本质上就是给算法找到对应的算力卡拉起来,大模型也能拉起来,现在问题是我没有大模型网关,我的需求是能够将多个相同模型的实例对外暴露为一个模型(能够支持一些权重路由、或者别的策略路由),由网关内部完成负载,并且能够兼容业界主流&国内模型的协议,能够将每条调用都记录下来,能够有主账号和子账号的概念(例如我开给A公司,A公司可以给每一个员工限额这样),我目前在看的是one-api,我需要基于one-api进行一些二开,原本打算用new-api,但是他的开源协议是我司不允许使用的,不知道各位佬有没有别的开源项目推荐 3 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-06 23:21:41+08:00 · tech

400报错除了是请求格式的问题,还有可能是对话过程中,你从多模态切换成了纯文本的模型,由于上下文出现过多模态的专属指令,就会报这个错误 429报错就是请求频繁限流了,冷却后再试 然后就是各种公益站最好是不经过cc或者codex++之类的,很容易报错限流甚至封禁,直连是最稳的。 还有用mimo这种低智商模型的时候,一定要检查它技能有没有真的下载成功,它可能会自己注册一个同名空壳糊弄你 还有ai写小说死路一条,不要浪费token 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-06-04 19:09:17+08:00 · tech

AI 后端工程师( Prompt & 多模态视频方向) 薪资:20K–25K RMB | 人数:1 职位亮点: 加入我们,你将负责将大模型能力真正落地到业务场景,尤其是 Prompt 设计 与 多模态 AI / VL 视频处理,推动 AI 在研发流程中的应用升级。 岗位职责: 设计与开发 AI 工作流、Agent 系统及 RAG 知识库,多步骤流程落地; 独立完成前后端开发,并将大模型能力( OpenAI 、Claude 、DeepSeek 、Qwen 等)应用于实际业务; 负责 Prompt 工程设计、自动化工作流搭建及 AI 功能上线优化; 构建 视频/多模态 AI 模块(视频理解、视频问答、图像+文本任务); 利用 Cursor 、Claude Code 、GitHub Copilot 等工具提升研发效率。 任职要求: 本科及以上学历,5 年以上全栈开发经验; 精通 React / Next.js / Vue 前端 + Node.js / Python / Go / Java 后端技术栈; 熟练使用大模型 API 集成,具备 RAG 、Agent 、Prompt Engineering 实战经验; 有 多模态 AI / VL 模型视频处理项目经验; 熟悉 PostgreSQL / MySQL / Redis 、Docker 、CI/CD ,具备系统设计能力。 加分项: 熟悉 LangChain 、LlamaIndex 、LangGraph 等 AI 框架; 有向量数据库( pgvector 、Qdrant 、Pinecone )使用经验; 熟悉 Ollama 、vLLM 或本地模型部署; 具备 AI 评测体系、监控体系建设经验。

v2ex · 2026-06-04 19:09:17+08:00 · tech

AI 后端工程师( Prompt & 多模态视频方向) 薪资:20K–25K RMB | 人数:1 职位亮点: 加入我们,你将负责将大模型能力真正落地到业务场景,尤其是 Prompt 设计 与 多模态 AI / VL 视频处理,推动 AI 在研发流程中的应用升级。 岗位职责: 设计与开发 AI 工作流、Agent 系统及 RAG 知识库,多步骤流程落地; 独立完成前后端开发,并将大模型能力( OpenAI 、Claude 、DeepSeek 、Qwen 等)应用于实际业务; 负责 Prompt 工程设计、自动化工作流搭建及 AI 功能上线优化; 构建 视频/多模态 AI 模块(视频理解、视频问答、图像+文本任务); 利用 Cursor 、Claude Code 、GitHub Copilot 等工具提升研发效率。 任职要求: 本科及以上学历,5 年以上全栈开发经验; 精通 React / Next.js / Vue 前端 + Node.js / Python / Go / Java 后端技术栈; 熟练使用大模型 API 集成,具备 RAG 、Agent 、Prompt Engineering 实战经验; 有 多模态 AI / VL 模型视频处理项目经验; 熟悉 PostgreSQL / MySQL / Redis 、Docker 、CI/CD ,具备系统设计能力。 加分项: 熟悉 LangChain 、LlamaIndex 、LangGraph 等 AI 框架; 有向量数据库( pgvector 、Qdrant 、Pinecone )使用经验; 熟悉 Ollama 、vLLM 或本地模型部署; 具备 AI 评测体系、监控体系建设经验。

v2ex · 2026-06-04 19:09:17+08:00 · tech

AI 后端工程师( Prompt & 多模态视频方向) 薪资:20K–25K RMB | 人数:1 职位亮点: 加入我们,你将负责将大模型能力真正落地到业务场景,尤其是 Prompt 设计 与 多模态 AI / VL 视频处理,推动 AI 在研发流程中的应用升级。 岗位职责: 设计与开发 AI 工作流、Agent 系统及 RAG 知识库,多步骤流程落地; 独立完成前后端开发,并将大模型能力( OpenAI 、Claude 、DeepSeek 、Qwen 等)应用于实际业务; 负责 Prompt 工程设计、自动化工作流搭建及 AI 功能上线优化; 构建 视频/多模态 AI 模块(视频理解、视频问答、图像+文本任务); 利用 Cursor 、Claude Code 、GitHub Copilot 等工具提升研发效率。 任职要求: 本科及以上学历,5 年以上全栈开发经验; 精通 React / Next.js / Vue 前端 + Node.js / Python / Go / Java 后端技术栈; 熟练使用大模型 API 集成,具备 RAG 、Agent 、Prompt Engineering 实战经验; 有 多模态 AI / VL 模型视频处理项目经验; 熟悉 PostgreSQL / MySQL / Redis 、Docker 、CI/CD ,具备系统设计能力。 加分项: 熟悉 LangChain 、LlamaIndex 、LangGraph 等 AI 框架; 有向量数据库( pgvector 、Qdrant 、Pinecone )使用经验; 熟悉 Ollama 、vLLM 或本地模型部署; 具备 AI 评测体系、监控体系建设经验。

v2ex · 2026-06-04 19:09:17+08:00 · tech

AI 后端工程师( Prompt & 多模态视频方向) 薪资:20K–25K RMB | 人数:1 职位亮点: 加入我们,你将负责将大模型能力真正落地到业务场景,尤其是 Prompt 设计 与 多模态 AI / VL 视频处理,推动 AI 在研发流程中的应用升级。 岗位职责: 设计与开发 AI 工作流、Agent 系统及 RAG 知识库,多步骤流程落地; 独立完成前后端开发,并将大模型能力( OpenAI 、Claude 、DeepSeek 、Qwen 等)应用于实际业务; 负责 Prompt 工程设计、自动化工作流搭建及 AI 功能上线优化; 构建 视频/多模态 AI 模块(视频理解、视频问答、图像+文本任务); 利用 Cursor 、Claude Code 、GitHub Copilot 等工具提升研发效率。 任职要求: 本科及以上学历,5 年以上全栈开发经验; 精通 React / Next.js / Vue 前端 + Node.js / Python / Go / Java 后端技术栈; 熟练使用大模型 API 集成,具备 RAG 、Agent 、Prompt Engineering 实战经验; 有 多模态 AI / VL 模型视频处理项目经验; 熟悉 PostgreSQL / MySQL / Redis 、Docker 、CI/CD ,具备系统设计能力。 加分项: 熟悉 LangChain 、LlamaIndex 、LangGraph 等 AI 框架; 有向量数据库( pgvector 、Qdrant 、Pinecone )使用经验; 熟悉 Ollama 、vLLM 或本地模型部署; 具备 AI 评测体系、监控体系建设经验。

v2ex · 2026-06-04 17:23:29+08:00 · tech

AI 后端工程师( Prompt & 多模态视频方向) 薪资:20K–25K RMB | 人数:1 职位亮点: 加入我们,你将负责将大模型能力真正落地到业务场景,尤其是 Prompt 设计 与 多模态 AI / VL 视频处理,推动 AI 在研发流程中的应用升级。 岗位职责: 设计与开发 AI 工作流、Agent 系统及 RAG 知识库,多步骤流程落地; 独立完成前后端开发,并将大模型能力( OpenAI 、Claude 、DeepSeek 、Qwen 等)应用于实际业务; 负责 Prompt 工程设计、自动化工作流搭建及 AI 功能上线优化; 构建 视频/多模态 AI 模块(视频理解、视频问答、图像+文本任务); 利用 Cursor 、Claude Code 、GitHub Copilot 等工具提升研发效率。 任职要求: 本科及以上学历,5 年以上全栈开发经验; 精通 React / Next.js / Vue 前端 + Node.js / Python / Go / Java 后端技术栈; 熟练使用大模型 API 集成,具备 RAG 、Agent 、Prompt Engineering 实战经验; 有 多模态 AI / VL 模型视频处理项目经验; 熟悉 PostgreSQL / MySQL / Redis 、Docker 、CI/CD ,具备系统设计能力。 加分项: 熟悉 LangChain 、LlamaIndex 、LangGraph 等 AI 框架; 有向量数据库( pgvector 、Qdrant 、Pinecone )使用经验; 熟悉 Ollama 、vLLM 或本地模型部署; 具备 AI 评测体系、监控体系建设经验。

cnBeta全文版 · 2026-06-04 13:36:35+08:00 · tech

Google日前发布并开源 Gemma 4 12B 版多模态模型,该模型的开发目标是让消费级设备也可以在本地运行 AI 模型,根据Google的测试,该模型可以在 16GB 内存 / 显存的笔记本电脑和台式机上运行,这得益于 12B 的小规模参数,但该模型的智能化程度比肩 Gemma 26B 版模型。 模型优势包括: 全新统一架构:无需多模态编码器,直接支持文本、图片、视频和音频输入。 高级推理功能:基准性能接近 Gemma 26B 版混合专家架构模型,可以在本地提供多步骤推理。 内存要求较低:只需要 16GB 的内存或显存即可在本地运行,当然内存越大性能也会更好。 模型开源发布:该模型采用 Apache 2.0 许可证发布,Google和社区也提供完善的开发者生态系统支持。 预测选型器:Gemma 4 12B 版配备多种 Token 预测选型器,可以有效减少延迟。 有关模型的更多介绍: Gemma 4 12B 在标注基准测试中的智能化程度接近Google此前开源发布的 26B MoE 混合架构模型,但 12B 版内存要求非常低,可以直接在配备 16GB 内存或显存的消费级笔记本电脑和台式机上运行,让用户可以在本地体验强大的多模态和智能体交互体验。 该模型的突出优势还包括简化图片、视频、音频输入处理方式,传统的多模态模型通常依赖独立的编码器来转换图像和音频,然后再将转换后的表示传递给语言模型,由于这些分离式编码器会增加延迟和内存占用,所以Google使用无编码器架构训练 Gemma 4 12B 模型,让模型可以直接整合音频和视觉输入。 视觉方面:使用轻量级的嵌入模块替换 Gemma 4 视觉编码器,该模块仅包含 1 次矩阵乘法、位置嵌入和归一化操作,这让模型主干网络可以直接接管视觉处理。 音频方面:Google完全移除了音频编码器,将原始音频信号投射到与文本标记相同的维度空间中。 体验和下载模型: 目前 Gemma 4 12B 版已经在多个平台提供,有兴趣的开发者可以在 Ollama 等中直接体验,也可以前往 HuggingFace 或 Kaggle 下载模型权重文件,开发者还可以使用 Unsloth 进行高效微调定制自己需要的版本。 Ollama: https://ollama.com/library/gemma4 HuggingFace: https://huggingface.co/collections/google/gemma-4 Unsloth: https://unsloth.ai/docs/models/gemma-4 查看评论