riverflow.ai – 5 Jun 26 Introducing Riverflow 2.5 | Sourceful Research Introducing Riverflow 2.5, reasoning image generation at the frontier with enhanced multi-edit thinking, custom judging, Font Control, background output modes, and up to 4K exports. Riverflow 2.5 系列(Flash/Pro)是Sourceful开发的统一的文本到图像和图像到图像家族,它将生成视为一个生产工作流,使用集成的推理模型来规划多步编辑,并在接受结果前判断候选方案。推理努力程度可通过推理参数(低/中/高/极高)控制——较高等级会进行更多编辑轮次并应用更严格的内部评判,其中极高等级适用于需要高可重复性的批量运行。它能够生成 1K、2K 和 4K 分辨率,并接受最多 10 张输入图像进行编辑。 河流其实是老朋友了,一个设计盒子的公司,在2.0系列就做出小香蕉级别的能力。现在2.5pro完全能和image 2和满血大香蕉平起平坐 但是满血大香蕉在哪里发财啊 目前在OpenRouter网页免费试用 openrouter.ai Riverflow V2.5 Pro (free) - API Pricing & Providers Riverflow V2.5 Pro is the most powerful variant of Sourceful's Riverflow 2.5 lineup, best for top-tier control and quality-sensitive outputs. $0 per million input tokens, $0 per million output tokens. 8,192 token context window. 河流vs大香蕉 河流vs大香蕉 生图能力平起平坐,但是缺点也很明显,其外部的LLM非常弱智,对于多文字,复杂prompt处理上不足。还有就是 极其安全 ,很多不被image 2输入审的东西都能触发 最后就是价格不太美丽,2.0的价格是0.15刀/图,折算比大香蕉都贵。不过趁现在or免费可以多用用() 7 个帖子 - 6 位参与者 阅读完整话题
Google – 3 Jun 26 Introducing Gemma 4 12B: a unified, encoder-free multimodal model An overview of Gemma 4 12B, a model designed to bring high-performance multimodal intelligence directly to your laptop. 以下为 官方公布的benchmark 同样为多模态模型,采用encoder-free 架构训练, 支持文字,图片,音频 可参阅相关技术报告 developers.googleblog.com Gemma 4 12B: The Developer Guide- Google Developers Blog Meet Gemma 4 12B: the first medium-sized, encoder-free multimodal model capable of natively ingesting audio and video. Ideal for local AI development with 16GB VRAM, Hugging Face integrations, and drop-in local API servers. 采用sliding window attention技术 1024的滑动窗口大小,256k上下文长度. 谷歌blog介绍,其 性能接近gemma4 26b model 4 个帖子 - 4 位参与者 阅读完整话题
https://www.microsoft.com/en-us/microsoft-365/blog/2026/05/28/introducing-a-new-design-for-microsoft-365-copilot/ [!quote]+ 现在,在 Copilot 应用程序中,提示行为您提供了更多空间来表达您的需求,而在提示行下方,Copilot 会显示各种工具和控件,以帮助您完成手头的任务。我们还在 Microsoft 365 应用程序中为 Copilot 创建了一个单一、灵活的入口点,可建议相关操作以帮助您完成工作。 为了设计出让人感觉存在但不强加于人的智能系统,我们采用了长期以来的渐进式公开设计原则:从简洁、集中的界面开始,然后根据需要公开更多的功能。在界面层面,左侧的导航窗格可以展开和收缩,为代理、对话和历史记录提供了更清晰的空间。同时,共享的固定系统和更多的会话调用空间使返回正在进行的工作变得更加容易。 2 个帖子 - 2 位参与者 阅读完整话题
Introducing Claude Opus 4.8 May 28, 2026 Claude Opus 4.8 发布 2026年5月28日 We’re upgrading Claude Opus to a new version: Claude Opus 4.8. It builds on Opus 4.7 with improvements across benchmarks, and is a more effective collaborator. It’s available today for the same price. 我们将 Claude Opus 升级到了新版本:Claude Opus 4.8。它在 Opus 4.7 的基础上进行了全方位的基准测试提升,是一个更高效的协作伙伴。该版本即日起上线,价格保持不变。 Opus 4.8 launches alongside several new features. Users on claude.ai now have control over the amount of effort Claude puts into a task. Claude Code has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. And fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models. Opus 4.8 随多项新功能一同发布。claude.ai 的用户现在可以控制 Claude 在任务中投入的精力。Claude Code 新增了“动态工作流”功能,使其能够处理超大规模的问题。此外,Opus 4.8 的快速模式(运行速度可达 2.5 倍)现在的成本比之前版本降低了三倍。 Opus 4.8’s capabilities The table below shows how Opus 4.8 compares to its predecessor and to other models on tests of coding, agentic skills, reasoning, and practical knowledge work tasks. More details and a much wider range of capability evaluations are provided in the Claude Opus 4.8 System Card. Opus 4.8 的能力 下表展示了 Opus 4.8 在编码、智能体技能、推理和实际知识工作任务测试中,与前代产品及其他模型的对比情况。更多细节及更广泛的能力评估请参阅《Claude Opus 4.8 系统卡》。 Collaborating with Opus 4.8 Early testers have found Claude Opus 4.8 to be more reliable and sharper in its judgement when it’s performing agentic tasks. Below are quotes from many of these testers about their experience collaborating with Opus 4.8: 与 Opus 4.8 协作 早期测试人员发现,Claude Opus 4.8 在执行智能体任务时更加可靠,判断力也更敏锐。以下是多位测试人员关于与 Opus 4.8 协作体验的评价: “Claude Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn’t sound, and builds up confidence around complex, multi-service explorations before making big changes. It’s a great model to build with.” “Claude Opus 4.8 的判断力明显提升。在 Claude Code 中,它能提出正确的问题,发现自己的错误,在方案不合理时提出异议,并在进行重大更改前,针对复杂的多服务探索建立信心。这是一个非常适合开发的模型。” “On our Super-Agent benchmark, Claude Opus 4.8 is the only model to complete every case end-to-end, beating prior Opus models and GPT-5.5 at parity on cost. For agent products in translation, deep research, slide-building, and analysis, it delivers powerful reliability.” “在我们的超级智能体基准测试中,Claude Opus 4.8 是唯一能端到端完成所有案例的模型,在成本相当的情况下击败了之前的 Opus 模型和 GPT-5.5。对于翻译、深度研究、幻灯片制作和分析等智能体产品,它提供了强大的可靠性。” “On CursorBench, Claude Opus 4.8 exceeds prior Opus models across every effort level. Tool calling is meaningfully more efficient, using fewer steps for the same intelligence, and it carries end-to-end tasks through.” “在 CursorBench 上,Claude Opus 4.8 在各个努力程度等级上都超越了之前的 Opus 模型。工具调用效率显著提高,以更少的步骤实现了同样的智能水平,并能出色地完成端到端任务。” “Claude Opus 4.8 delivers the highest score recorded on our Legal Agent Benchmark, and is the first model to break 10% overall on the all-pass standard. For substantive legal work, that’s the kind of accuracy lift that translates directly into how much real attorney work our customers can hand off with confidence.” “Claude Opus 4.8 在我们的法律智能体基准测试中获得了最高分,也是第一个在全通过标准下总体突破 10% 的模型。对于实质性的法律工作,这种准确性的提升直接转化为客户可以放心地将多少实际律师工作外包给 AI。” “Claude Opus 4.8 feels like a major quality-of-life update over Opus 4.7: faster, easier to collaborate with, and better at carrying context and style direction across a long session. Opus 4.8 is the model I kept trusting for work where voice, taste, and technical execution all have to happen side-by-side.” “Claude Opus 4.8 感觉像是对 Opus 4.7 的一次重大体验升级:速度更快,协作更轻松,并且在长会话中保持上下文和风格导向的能力更强。对于那些需要兼顾语调、品味和技术执行的工作,Opus 4.8 是我一直信赖的模型。” “Claude Opus 4.8 is the strongest computer-use and browser-agent model we’ve tested, scoring 84% on Online-Mind2Web, which is a meaningful jump over both Opus 4.7 and GPT-5.5. It stays reflective and on-task in the way our customers’ agent workloads need to be reliable end-to-end.” “Claude Opus 4.8 是我们测试过的最强大的计算机使用和浏览器智能体模型,在 Online-Mind2Web 上得分 84%,这比 Opus 4.7 和 GPT-5.5 都有显著提升。它保持了反思能力和专注度,满足了我们客户对智能体工作负载端到端可靠性的需求。” “Claude Opus 4.8 uses tools cleanly and follows instructions with the consistency our autonomous engineering workloads need to keep running unattended. It improves on Opus 4.6 and fixes the comment-verbosity and tool-calling issues we saw with Opus 4.7. This release from Anthropic translates directly into faster capability gains for engineers building on Devin.” “Claude Opus 4.8 能简洁地使用工具,并以我们自主工程工作负载无人值守运行所需的一致性来遵循指令。它在 Opus 4.6 的基础上进行了改进,修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。Anthropic 的这次发布直接转化为在 Devin 上进行开发的工程师们能力的快速提升。” “On our long-running evals, Claude Opus 4.8’s analysis was consistently higher quality than prior Opus models. It finished faster and produced richer, more information dense outputs. Overall, a noticeably better signal to noise ratio. The biggest differentiator was Opus 4.8’s tendency to proactively flag issues with the inputs and outputs of an analysis, something other models routinely missed and left to the users to catch.” “在我们长期的评估中,Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成速度更快,产出的内容更丰富、信息密度更高。总体而言,信噪比明显更好。最大的区别在于 Opus 4.8 会主动标记分析输入和输出中的问题,而其他模型通常会忽略这一点,留给用户去发现。” “Across CoCounsel Legal, Claude Opus 4.8 delivered meaningful improvements in consistency and reasoning quality compared to prior Opus models. For the high-stakes professional workflows our customers depend on, that reliability matters. As we build fiduciary-grade AI systems for legal and tax professionals, advances like these help raise the standard for trusted AI performance in real-world workflows.” “在 CoCounsel Legal 中,与之前的 Opus 模型相比,Claude Opus 4.8 在一致性和推理质量上带来了显著提升。对于客户依赖的高风险专业工作流,这种可靠性至关重要。随着我们为法律和税务专业人士构建受托人级别的 AI 系统,这些进步有助于提高现实工作流中可信 AI 性能的标准。” “Claude Opus 4.8 sets a new bar for enterprise AI. In Genie, Databricks’ AI agent for data and knowledge work, the new Opus model unlocks a step change in agentic reasoning, tackling deeper, multistep questions faster than any prior Opus. Its multimodal strength also lets Genie reason directly over PDFs, diagrams, and other unstructured content at 61% cheaper token cost than Opus 4.7.” “Claude Opus 4.8 为企业级 AI 树立了新标杆。在 Databricks 用于数据和知识工作的 AI 智能体 Genie 中,新的 Opus 模型实现了智能体推理的跨越式发展,处理更深层次、多步骤问题的速度比以往任何 Opus 模型都快。其多模态能力还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理,且 Token 成本比 Opus 4.7 降低了 61%。” “For financial-document workflows in Hebbia’s orchestrator, Claude Opus 4.8 delivers the same strong quality as Opus 4.7 with noticeably better citation precision and more token efficiency on retrieval, which works incredibly well for the kinds of dense filings our customers run every day.” “对于 Hebbia 编排器中的金融文档工作流,Claude Opus 4.8 提供了与 Opus 4.7 同样强大的质量,同时在引用精度和检索 Token 效率上有了显著提升,这对于我们客户每天处理的密集型文件非常有效。” One of the most prominent improvements in Opus 4.8 is its honesty. We train all our models to be honest—for instance, to avoid making claims that they can’t support. But a general problem with AI models is that they sometimes jump to conclusions, confidently claiming to have made progress in their work despite the evidence being thin. Early testers report that Opus 4.8 is more likely to flag uncertainties about its work and less likely to make unsupported claims. This is borne out in our evaluations, which show that Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked. Opus 4.8 最显著的改进之一是其诚实性。我们训练所有模型保持诚实——例如,避免做出无法支持的断言。但 AI 模型的一个普遍问题是,它们有时会草率下结论,在证据不足的情况下自信地声称工作取得了进展。早期测试人员报告称,Opus 4.8 更倾向于标记其工作中的不确定性,且不太可能做出未经证实的声明。这一点在我们的评估中得到了证实:Opus 4.8 允许其编写的代码中存在缺陷而不加说明的可能性,比前代产品降低了约四倍。 As always, we ran a detailed alignment assessment on the model before release. In terms of positive traits, our Alignment team concluded that Opus 4.8 “reaches new highs on our measures of prosocial traits like supporting user autonomy and acting in the user’s best interest.” The assessment also showed Opus 4.8 to have rates of misaligned behavior (such as deception or cooperation with misuse) that are substantially lower than Opus 4.7, and similar to our best-aligned model, Claude Mythos Preview. The full alignment assessment, accompanied by a suite of pre-deployment safety tests, is reported in the Claude Opus 4.8 System Card. 一如既往,我们在发布前对模型进行了详细的对齐评估。在积极特质方面,我们的对齐团队得出结论:Opus 4.8 “在支持用户自主性和维护用户最大利益等亲社会特质的衡量指标上达到了新高度。”评估还显示,Opus 4.8 的未对齐行为(如欺骗或配合滥用)发生率远低于 Opus 4.7,与我们对齐效果最好的模型 Claude Mythos Preview 相当。完整的对齐评估及一系列部署前安全测试报告已收录在《Claude Opus 4.8 系统卡》中。 https://www.anthropic.com/news/claude-opus-4-8 2 个帖子 - 1 位参与者 阅读完整话题
anthropic.com Introducing Claude Opus 4.8 Our latest model, Claude Opus 4.8, is an upgrade to our Opus class of models, with stronger performance across coding, agentic tasks, and professional work, and the consistency to handle long-running work. 以下是这段文字的中文翻译: 用户会发现,相比前代产品,Opus 4.8 实现了适度但切实的提升。尽管如此,我们仍有更多工作要做:我们正致力于开发并发布新的模型,旨在以更低的成本提供与 Opus 相似的诸多功能。 不仅如此,我们还计划发布一种智能水平甚至超越 Opus 的全新层级模型。作为 Glasswing 项目的一部分,目前已有少数机构正在使用 Claude Mythos 预览版(Claude Mythos Preview)开展网络安全工作。达到这种能力水平的模型在全面发布之前,需要配备更强大的网络安全防护措施。我们在开发这些防护措施方面进展迅速,预计在未来几周内就能向所有客户推出 Mythos 级别的模型。 8 个帖子 - 8 位参与者 阅读完整话题
Newsroom | TikTok Introducing TikTok Ad-Free: More choices for how you experience ads in the UK... TikTok is the world's leading destination for short-form mobile videos. Our mission is to capture and present the world's creativity, knowledge, and moments that matter in everyday life. TikTok empowers everyone to be a creator directly from their... 1 个帖子 - 1 位参与者 阅读完整话题
anthropic.com Introducing Claude for Small Business We're launching Claude for Small Business, a package of connectors and ready-to-run workflows that put Claude inside the tools small businesses use every day. Claude for Small Business 是一款可切换安装的工具,它能让 Claude 集成到小型企业主已经使用的工具中,例如:Intuit Quickbooks、PayPal、HubSpot、Canva、DocuSign、Google Workspace 和 Microsoft 365。通过这些工具,它可以规划工资、结算月度、开展销售活动、催收账款等等。 1 个帖子 - 1 位参与者 阅读完整话题
Google – 12 May 26 Introducing Googlebook, designed for Gemini Intelligence We’re introducing Googlebook, a new category of laptops designed for Gemini Intelligence and perfectly in sync with your Android phone. [!quote]+ 我们汇集了 Android 和 ChromeOS 的精华,前者拥有 Google Play 上的强大应用程序和专为智能设计的现代操作系统,后者则拥有世界上最流行的浏览器。这就是 Googlebook:以 Gemini 的实用性为核心打造的全新笔记本电脑类别,旨在与您生活中的设备无缝协作,并采用优质硬件。我们今天分享的是 Googlebook 体验的先睹为快,今年晚些时候还将分享更多内容。 Googlebooks 是首款为 Gemini Intelligence 从头开始设计的笔记本电脑,可随时随地为您提供个性化的主动帮助。 作为安卓技术栈的一部分,我们可以更快地为所有用户带来新的创新,包括现在的笔记本电脑。它还能让我们在用户拥有多台设备时提供更好的体验,而现在越来越多的人拥有多台设备。 Introducing Googlebook 4 个帖子 - 4 位参与者 阅读完整话题
Claude Agent view in Claude Code | Claude Today we're introducing agent view in Claude Code: one place to manage all your Claude Code sessions. 3 个帖子 - 2 位参与者 阅读完整话题
Harvey Introducing Harvey’s Legal Agent Benchmark Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve agent capabilities for supporting legal work. 我们推出 Harvey 的法律代理基准测试 (LAB),这是一个面向法律代理的开源基准测试。LAB 旨在评估和提升代理支持律师实际工作的能力。每个任务都包含一条指令、一个包含相关材料的客户案例,以及一项要求代理提交工作成果以供审核的条件。这种结构旨在模拟大型律师事务所的工作分配、执行和审核流程。 LAB 的目标是清晰地展现如何部署智能体来支持现实世界中的法律工作。通过阐明智能体可以完成全部、部分或完全不完成哪些任务,LAB 帮助律师事务所衡量人工智能投资的回报率,以及这些投资可以在哪些方面增强团队的工作效率。 LAB 的首个版本涵盖 24 个法律实践领域的 1200 多个代理任务,并采用超过 75000 条专家编写的评估标准进行评估。我们开源 LAB,旨在为模型提供商、代理构建者、研究人员和律师事务所提供一种共享的方式来衡量长期法律代理的进展。 我们特意在LAB发布时不设排行榜,因为我们预计数据集会随着时间推移而不断更新,并且我们希望与社区合作,确保结果能够清晰直观地反映代理的表现。在接下来的几周里,我们将与研究伙伴合作,获取LAB的基准结果,并发布排行榜,以便更好地展现法律代理的现状。此外,我们还将发布提交规范化的标准,以便大家能够识别改进之处,并跟踪基准测试的进展,因为基准测试本身也会随着新任务、实践领域和知识工作学科的出现而不断发展。 github.com GitHub - harveyai/harvey-labs: A benchmark built to evaluate and improve agent... A benchmark built to evaluate and improve agent capabilities for supporting legal work. 4 个帖子 - 2 位参与者 阅读完整话题
EVE Online – 6 May 26 A New Era | EVE Online Introducing Fenris Creations 作为新篇章的一部分,我们开始与Google DeepMind建立研究合作,专注于复杂、动态、玩家驱动系统的智能。这是我真心感到兴奋的事情。 多年来我多次与谷歌DeepMind的人谈论EVE的话题,我承认我从不放过任何机会来炫耀EVE玩家们打造的成果。他们让我这么兴奋,因为他们都热爱游戏。像AlphaGo和AlphaStar这样的项目,在我们理解智能、学习和解决问题方面起到了基础作用。 "作为一名玩家和游戏制作人,我一直很欣赏EVE。EVE社区与Hilmar及其团队共同创造的游戏,在游戏界无与伦比。它是一款独一无二的模拟,用于在安全的沙盒环境中测试通用人工智能。 我很高兴能与Fenris Creations团队合作,推动人工智能的前沿,探索新的玩家体验。" ------ 亚历山大·穆法雷克,谷歌DeepMind总监 这就是为什么这种合作关系很合理。EVE是少数可以在已经像活世界一样运作的环境中探讨智能问题的环境之一。 明确一点:这项初步研究将在不受控、离线的EVE版本中进行,这些版本与Tranquility不相连。但它确实为作品打开了一扇非常贴近EVE的门:难题、漫长的时间线、奇异的可能性,以及愿意探索未来的人们。 随着2026年同人节下周的临近,我们将有机会分享更多关于这项研究的内容。Google DeepMind创始团队成员Adrian Bolton将与我一同登上Fanfest舞台。Adrian利用他对游戏和游戏开发的热情,帮助制定了他们开创性的人工智能研究蓝图。我期待更多地讨论我们的合作以及Google DeepMind在情报和游戏领域的独特视角。 1 个帖子 - 1 位参与者 阅读完整话题
来源: Introducing OpenAI Privacy Filter | OpenAI Demo: 流程大概是 对用户的输入使用该小模型处理, 识别输入中的敏感信息, 将其替换为替代词(环境变量?), 脱敏后发送给云端LLM. 云端的LLM返回后, 再在本地对输出按需恢复. 模型参数量: 总参数1.5B, 激活参数50M 模型上下文窗口: 128K 仓库地址: GitHub github.com GitHub - openai/privacy-filter: OpenAI Privacy Filter OpenAI Privacy Filter Hugging Face huggingface.co openai/privacy-filter · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 模型卡片 cdn.openai.com OpenAI-Privacy-Filter-Model-Card.pdf 4 个帖子 - 4 位参与者 阅读完整话题
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)
https://openai.com/index/introducing-gpt-5-5/ API 定价比 5.4 贵 For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. 官方提到了在 Codex 中因为 Token 效率更高所以大概能在相同价格用量下得到和 5.4 类似的效果(持怀疑态度)