半夜Claude多了个新模型,貌似是之前说的mythos?不知道能力如何..怀念4.6o刚上的那种惊艳感 6 个帖子 - 5 位参与者 阅读完整话题
总结: 技能释放一次持续1-2小时,CD 3-4小时,一周用 4 6.5次。 技能 技能CD 4 个帖子 - 4 位参与者 阅读完整话题
IT之家 6 月 2 日消息,据彭博社 2 日(今天)报道,联发科将扩大招聘,以支撑新的 AI 业务扩张。随着人工智能时代的就业焦虑升温,联发科也加入了通过增聘人手安抚外界担忧的科技公司行列。 英伟达面向 PC 的新芯片 Spark 采用了联发科参与开发的技术。联发科高级副总裁 Vince Hu 对公司未来增长前景充满信心,并透露新的数据中心业务订单未来数年能见度良好。“我对我们正在推进的业务 基本面感觉非常好 。我认为,至少到 2030 年前后,我们已经做好准备。” 全球各地员工都在担心工作可能受到 AI 冲击。Vince Hu 承诺 扩充联发科工程团队 ,也呼应了英伟达 CEO 黄仁勋周二在同一场活动上的表态。黄仁勋认为,AI 会 增强科技公司的人力资源 ,而不是削弱人力资源。 联发科此前表示,预计今年 AI 芯片收入 约为 20 亿美元(IT之家注:现汇率约合 135.62 亿元人民币) ,并有望在 2027 年成倍增长。联发科希望明年在规模 800 亿美元的数据中心市场机遇中,拿下最高 15% 的份额。 此外,联发科已经在为一家云服务商开发 AI 芯片。Vince Hu 没有透露客户名称,仅表示联发科已经拿下第二个芯片设计项目。在首家客户之外,联发科还拥有与其他超大规模云服务商合作的“健康机会管线”。“AI 正在改变联发科,未来业务结构将出现显著不同的构成。” 分析师认为,谷歌母公司 Alphabet 旗下谷歌是联发科的 AI 芯片客户。广发证券(香港)分析师蒲得宇等人近期还表示, SpaceX 未来可能会在数据中心芯片领域依赖联发科 。
直接看图 不过仅仅是图生视频这个单项超过了 seedance2 不知道外国老马有没有学中国老马,偷偷刷榜 其实现在都大差不差,图生视频,前几个模型都不错 xAI 网页版上可以用了,可以跑一下 更多 Grok Vdieo 1.5 和其他模型 sd2 omni 对比参考这里
** 太平洋时间5月19日上午10点(北京时间5月20日凌晨1点) * Gemini4?/Gemini3.5? Antigravity? VEO? 笔记本Googlebook? Android XR操作系统+智能眼镜? 浏览器更新? Android 17的Ai化? 音频音乐生成模型? 智能家居? 3 个帖子 - 3 位参与者 阅读完整话题
北京时间5月20日凌晨,一年一度的GoogleI/O大会即将开幕。过去,大家看I/O,是等Android新功能、Pixel新硬件,顺便看几个炫技Demo。今年不一样。 外界真正想看的只有一件事:去年Gemini 3刚让Google扳回一局,这几个月OpenAI、Anthropic又连续加速,Google还能不能守住第一梯队。 几天前的Android Show已经放出信号:Android17、Gemini Intelligence、AI笔记本,都只是预热。 真正的主菜,藏在I/O主题演讲里。 Gemini 4.0会不会亮相?传闻中的Omni能不能把视频、语音、对话和创作打通?Aluminium OS会不会让Google重新杀回PC?Android XR眼镜能不能成为下一个入口? 这些问题背后,真正要看的不是单个产品有多强,而是Google能不能把这些散牌,打成一套完整的反击。 一、核心大脑:Gemini 4.0与"Omni",对标GPT-5.5的全能形态 今年I/O大会的第一大悬念,是Gemini能否真正抹平与OpenAI的代差。 目前泄露的信息涉及多个版本号,但真正值得关注的只有两个:Gemini 4.0和Gemini Omni。 前者是Google2026年的旗舰底座,目标是在逻辑推理能力上实现跨越式提升,全方位对标GPT-5.5;后者是基于4.0架构的原生多模态版本,核心在于"Omni(全能)",意味着它不再需要外挂视频或音频工具,自己就能直接生成和处理多维信息。 网红科技博主Chubby也援引公开报道称,Google正准备在I/O大会上发布一款新的Gemini模型,将其定位为接近OpenAI最近的GPT-5.5,而不是更加难以企及的Anthropic Mythos。 而社交媒体上近期热议的"Gemini Omni"模型,据传将是本次大会的"One More Thing"。 根据Chrome Unboxed和9to5Google的联合爆料,部分内测用户已经提前看到了名为"Omni"的模型选项。 与之前的Veo不同,Omni不仅涵盖了Veo的视频生成能力,还增加了"视频重混"和"原生对话剪辑"等新功能。 有用户在社交媒体上"哀嚎",称使用Omni模型生成一段短视频就消耗了其AI Pro计划86%的每日额度。 这种超高的算力消耗,侧面反映了视频生成任务的计算密集度,也暗示该模型的能力可能远超此前的版本。 二、系统革命:Aluminium OS,不只是Android,是PC的重生 如果说AI是大脑,那么各路媒体和社区相传的Aluminium OS就是Google为这颗大脑打造的全新"身体"。 在Reddit上,一段长达16分钟的Aluminium OS上手视频被疯狂转发。视频显示,这套系统彻底打破了ChromeOS的局限: · 交互逻辑: 底部拥有类似macOS或Windows的App Dock栏。 · 核心功能: 完整的桌面版Chrome浏览器体验,原生运行AndroidApp,加上强大的虚拟桌面切换。 · 杀手锏: 一个名为"Link to iOS"的内置应用。 这暴露了Google的野心。它不仅想统一自己的生态,还想通过AI电脑这个切入口,去撬苹果iPhone用户的墙角。 正如GoogleAndroid生态系统总裁萨米尔·萨马特(Sameer Samat)此前确认的,Aluminium OS将搭载在名为"Googlebook"的新一代笔记本上。 这不同于以往的Chromebook,而是由宏碁、华硕、联想、戴尔、惠普等巨头代工的高端AI PC,目标是正面对垒苹果MacBook和微软Surface Pro。 三、硬件"金珠":Android XR眼镜的量产前夜 去年的I/O大会上,AR眼镜还只是PPT上的概念。今年,它已经有了清晰的量产路径。 Mashable的最新深度报道梳理了GoogleXR硬件的真实面貌: · AI智能眼镜: 根据Android Headlines的爆料,目前代号"Jinju(金珠)",定价区间预计在379美元至499美元之间,类似Meta与Ray-Ban的联名款。无屏幕,主打Gemini Live语音交互。当你走在街上问"我面前这栋楼的历史",它会通过内置摄像头实时作答。 · AR增强现实眼镜: 相比AI智能眼镜还带有显示镜片,但发布时间未定。 379美元至499美元这个价格区间极具竞争力,意味着Google希望通过低门槛让AR设备成为普通人的日常配件。 在合作厂商方面,除了三星之外,Google这次还拉拢了XREAL等AR眼镜领域的领先厂商。多位开发者在X上爆料,Google已经准备好了完整的Android XR SDK(开发者工具包)。I/O大会将是这些开发者正式获准"上场"的时间点。 四、从"对话"到"代劳":智能体与生态版图的最后拼图 如果说Gemini 4.0是大脑,Aluminium OS是骨架,那么本次I/O上有望亮相的其余武器,决定的是Google能不能真正切进用户的日常。 搜索的"核武选项":默认AI Mode的豪赌 最可能引发行业震动的,是搜索入口的彻底重构。 Google准备正式将"AI Mode"设为默认搜索选项。 搜索不再是提供网页跳转,而是直接交付结果。当你搜索"策划低碳婚礼"时,Gemini 4.0会直接生成完整的方案预算,而不是让你点击不同的婚庆网站。 为解决"幻觉"痛点,新搜索将引入实时校验技术。 AI在生成答案的同时,后台会同步启动数个微型搜索任务进行交叉验证,并实时标注信源权重与"信心指数"。 备受好评的NotebookLM也有望与Gemini深度整合。用户可以将私有文档、科研报告作为"事实来源"喂给AI,确保生成的每一句话都"有据可查",从而解决企业级用户对AI准确性的焦虑。 智能体(Agentic AI):从"聊天"转向"执行" 在本次大会的预期清单中,"Agentic AI"是最吸睛的关键词。 与以往只会"纸上谈兵"的对话机器人不同,Google正计划让Gemini具备自主执行能力。 5月14日,社交媒体X上得爆料账号 @testingcatalog披露了更为详尽的细节:这款名为"Gemini Spark"的全新智能体即将亮相。它被定位为一个24/7全天候在线的私人助理,其核心逻辑在于“理解”与“接管”。爆料显示,Gemini Spark不仅能学习用户的行为习惯,还会深度调用已连接的应用(Apps)、历史对话、地理位置以及用户已登录的网站信息,从而构建起极具个人化的“数字大脑”。 为了实现最高效的任务处理,Gemini Spark甚至会保存远程浏览器数据(如登录凭据和远程代码执行数据),这意味着它可以在极少人工干预下,自主控制电脑或手机完成复杂任务。比如,它能直接从网页提取数据、填充表格并自动发送邮件,而无需用户反复授权登录。 结合名为"Magic Pointer"的屏幕感知技术,AI 不再只是搜索框里的字符,它能“看到”你屏幕上的内容(比如社交媒体上的旅行目的地),并直接利用Gemini Spark 获取的个人情报与登录状态,在后台静默完成机票比价、酒店预订并同步至日历。 当然,针对如此深度的隐私介入,爆料也提到Google在设置中预留了开关,用户可以随时清理远程浏览器数据或关闭个人智能功能,以在便利与安全之间寻找平衡。 Android 17:低调测试背后的"多任务"野心 虽然"Android Show"已经预热过,但I/O主会场才是Android 17真正亮杀招的舞台。 测试版看似波澜不惊,但核心交互逻辑正在发生质变。 据称,借鉴了折叠屏经验的"气泡"窗口(App Bubbles)交互模式将全面下放,允许任何应用以悬浮窗形式存在。这不仅是针对大屏设备的优化,更是为了在Aluminium OS时代实现手机与PC体验的无缝融合。 此外,在经历了两年的激进扩张后,Android 17将回归底层,重点修复AI集成后的功耗与隐私漏洞,为即将到来的Pixel系列提供最稳固的底座。 创作工具与"未来投影":Veo、Lyria与Project Beam 视频生成工具Veo和音乐创作工具Lyria预计将推出更具商业落地价值的Pro版本,对标行业最顶尖的生成式标准。 充满科幻感的3D视频通话技术Project Beam也有望展示最新进展,利用多摄像头阵列让远程通话对象像真实的3D模型一样出现在你面前 ,配合Android XR眼镜使用,直接打破了屏幕的物理边界。 五、社交媒体反应:是"全能代理"的黎明,还是"追赶者"的最后挣扎? 在社交媒体和开发者社区,围绕这届I/O的讨论已经极度两极分化。 看好的一方,赌的是生态整合。 科技媒体Mashable援引创作者Renato在X上的推文指出,Omni模型的出现意味着我们终于要打破"对话框"的束缚。如果Gemini 3.5/4.0能够原生输出视频并嵌入工作流,创作者将不再需要在不同的AI工具间反复切换,这种"多模态画布"的体验将直接改变内容生产的逻辑。 知名科技评论员迈克尔·斯坦(Michael Stan)则认为,相比模型跑分,"Teamfood"(内部测试代号)长效记忆功能才是真正的杀手锏。 目前AI工具最让人沮丧的就是每次开启新对话都要重新解释背景,如果Google能实现跨Session的持久记忆,Gemini才会真正从"聊天机器人"变成"数字助理"。 看衰的一方,质疑的是执行力。 开发者Jasper的评论获得了大量点赞,他直言Google正全面落后:视频输给Seedance,图像输给GPT image v2,聊天和编程输给了所有人,语音输给GPT realtime 2,音乐输给Suno。 这届I/O必须拿出有统治力的产品。 针对"Gemini 4.0性能约等于GPT-5.5"的爆料,评论员Kushagra Tiwari讽刺道: "Google将目标对准GPT-5.5而不是Mythos,这说明了现在的真实基准线到底在哪里。他们甚至都不再假装去追赶Anthropic了,只是在努力让自己在低一档的梯队中保持存在感。" Reddit上也有资深用户反映,近期Gemini和Google Flow的稳定性极差,甚至到了"几乎无法使用"的地步。虽然他乐观地认为这是在为大版本更新铺路,但更多用户在跟帖中表达了因3.1版本Bug频发而感到心灰意冷,甚至已经开始考虑重回GPT或Anthropic。 还有一些声音在讨论更底层的问题。 有开发者在X上提出:即便Gemini 4.0追平了GPT-5.5,但在成本和效率上,它能否抵挡住中国开源大模型的冲击? 如果闭源模型的溢价无法转化成绝对的生产力优势,Google的商业闭环将面临严峻挑战。 也有评论调侃Google一直在"厨房里备菜",但如果5月19日端出来的菜还是"半成品",那么正如Stephen Day所言:"Google可能需要把整个厨房的员工都换了。" 这种舆论氛围,本质上是一种"恨铁不成钢"的期待。大家依然相信Google拥有全球最强的算力和最深的技术积淀,但耐心正在被一次次"Demo惊艳、实测平平"所磨灭。今年的I/O,不只是展示技术的秀场,更是Google夺回社区信任的关键一仗。 六、总结:这不只是一场科技盛会,更是Google的保卫战 站在2026年的时间节点上,Google面临的对手前所未有地强大:OpenAI虎视眈眈,Meta在XR硬件端先声夺人,苹果正在深度重构全线产品的AI体验。 经过前面五章的梳理,有几个判断可以先给出来。 在这手牌里,最有胜算的可能是搜索。AI Mode设为默认这步棋,本质上是Google在用自己最大的护城河(搜索入口和流量)去喂AI。别家需要费力获客,Google只需要把现有用户的搜索体验换一层皮。如果实时校验技术和NotebookLM整合能做到位,这张牌打出来的效果可能比Gemini模型本身更重要。 最大的不确定性在Aluminium OS。一个全新的操作系统要说服用户放弃macOS或Windows,光靠"能跑AndroidApp"远远不够。ChromeOS的教训还在眼前。Google需要在I/O上拿出至少一个让人无法在其他平台复制的使用场景,否则Googlebook大概率会重蹈Chromebook高开低走的老路。 而XR眼镜和Omni模型,更像是Google在押注下一个周期。379美元的定价说明Google想走量,但没有屏幕的AI眼镜能不能撑起日常使用,取决于Gemini Live的语音交互到底有多可靠。如果只是一个戴在脸上的语音助手,消费者不会买单。 归根结底,Google这次要证明的不是某个单品有多强,而是这些散在各处的能力,从模型到系统到硬件到搜索,能不能拼成一套连贯的体验。如果I/O结束后,外界的反应还是"每个Demo都很炫,但实际用起来还是老样子",那这场保卫战就算输了。 5月20日凌晨,答案马上揭晓。 查看评论
好久没用Gemini,今天突然发现Gemini更新了Web界面。都沉默了几个月,难道是要攒大招了吗? 4 个帖子 - 3 位参与者 阅读完整话题
Selected model is at capacity. Please try a different model. 疯狂提示这个报错,难道说5.6真的要来了? 还是憋了坨大的等着原子弹爆炸? 4 个帖子 - 3 位参与者 阅读完整话题
昨天半夜 cloudflare 在博客上官宣,字昨日起,允许 agent 购买域名和部署服务。来源: https://blog.cloudflare.com/agents-stripe-projects/ 大家的虚拟员工会更忙了。期待 ing
逛帖子的时候,常常看到一些黑话,比如奥特曼要放大招了, 就是又要出新策略封禁账号了,还有哈吉米说的是glm吗, 5 个帖子 - 4 位参与者 阅读完整话题
IT之家 4 月 21 日消息,吉利汽车集团宣布 4 月 24 日将以半包馆形式亮相 2026 北京国际车展,集结极氪、领克、吉利银河及中国星品牌,展示全域 AI 2.0 与全域安全 2.0 技术体系最新成果。 据财联社,吉利届时将首设独立科技生态展台,集中呈现超级 Eva、千里浩瀚 G-ASD 4.0、智能蛋舱等前沿技术,并将带来中国首台原生 Robotaxi 原型车首发。 据介绍,该车基于吉利 L4 级 AI 数字架构开发,融合 WAM 世界动作模型与 L4 级自动驾驶技术,车端算力与感知硬件能力将突破行业上限,并引入物理 AI 能力,被视为吉利具身智能落地的又一关键实践。
如题,之前的最大优点就是语言模型、视频模型、图像模型、声音模型并行,好像是国内唯一几家能够All in one的模型公司。 结果现在编码模型还是M2.7、性能严重落后,原来量大管饱、便宜的优点现在不值一提,直接就是拉完了,而且没有看到公司在编码模型上面还有什么宏大的计划。 视频模型本来也不错,结果字节的模型一出来,openai的sora 都关了。Minimax后续打算咋弄,是学openai,把 视频模型也关了,All in全部算力堆在编码模型上,还是有其他方向? 总之感觉现在Minimax的股价很危险呀,现有的模型实力好像没有体现出什么先进性,原本起步早的优点,小米的新模型都把它冲破了,国内其他传统的额互联网大公司也在冲刺,护城河可以说没有了 附:grok统计的各家模型参数量大小 17 个帖子 - 13 位参与者 阅读完整话题
芯片制造商联发科将扩大招聘,以支持其向新的人工智能业务领域推进。此举呼应了其他科技公司的表态,旨在缓解外界对AI时代岗位流失的担忧。联发科资深副总经理胡俊弘表示,公司对自身增长前景充满信心。他指出,未来几年,联发科新数据中心业务的订单可见度良好。(财联社)