怀念乔布斯那时候熬夜看发布会,每一次都惊艳刷新自己对 iPhone 的认知,感受到前沿科技,如今还来个阉割版的 iOS,没有人工智能,当然政策原因无可厚非,起床上班。[grid] [/grid] 20 个帖子 - 18 位参与者 阅读完整话题
现在AI工作流,不是叫AI继续就是等AI完成代码编写,看着AI执行就好,当年TNT的语音交互放到现在就不用键盘鼠标了,直接躺办公椅上叫着继续,多惬意啊 7 个帖子 - 7 位参与者 阅读完整话题
IT之家 6 月 4 日消息,国家企业信用信息公示系统显示,锤子科技创始人罗永浩工商职务发生变动,在锤子软件(北京)有限公司的职务由“执行董事”变更为“董事”,这是罗永浩近年来又一次退出锤子系企业核心管理岗位。 对此,锤子科技内部知情人士向“每日经济新闻”记者透露,此次职务调整为企业常规工商变更,属于公司既定人事安排,无特殊变动原因。 不过,罗永浩至今仍与“锤子系”企业深度绑定。在其关联的 7 家相关企业中,他在 5 家公司担任核心高管职务,其中包括锤子科技(成都)股份有限公司董事长、北京锤子数码科技有限公司执行董事等。 值得一提的是,在债务清偿稳步推进的同时,罗永浩并未停下创业脚步。2022 年,罗永浩选择再度深耕科技赛道。当年 6 月,他宣布退出所有社交平台,潜心开启新一轮创业。次月,他便在“交个朋友”直播间官宣成立“北京细红线科技有限公司”,正式开启全新创业征程。 截至目前,细红线科技仅推出 AI 助理软件 J1 Assistant、AI 听书 App“且听”两款产品,两款产品均未在消费市场形成热度,公司整体 AI 商业化进程仍面临诸多挑战。
发现就好像有了锤子,每天都在找钉子一样。 2 个帖子 - 2 位参与者 阅读完整话题
高二的开发者 @qeeryyu 同学使用 Claude Code 发布了一款油猴脚本,用来导出曾经锤子手机的云端便签,支持分类、导出图片,以及 Markdown 格式。@Appinn是的,锤子便签居然还活着。 来自发现频道:https://meta.appinn.net/t/topic/86216
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 锤子便签的笔记一直在云端里,想在本地留一份备份,但官方没有导出功能。 之前在网上找到了一个Chrome插件: https://github.com/reed-soul/smartisan-notes-saver 但只能全部导出,并且没办法导出图片。于是最近借助Claude Code小改了一下。 功能简介 全部导出 :所有便签按原分类打成一个 ZIP,文件名用 UTF-8,Windows / macOS / Linux 解压中文都不乱码。 自定义导出 :弹出面板按分类勾选你要的便签,支持搜索、文件夹整选、全选,可在「按分类 / 按修改时间」两种排序间切换;选好后打包 ZIP 或逐个下载 .md。 带上笔记里的图片 (可开关,默认开):ZIP 模式把图片存进 images/ 文件夹、正文用相对路径  引用;逐个导出则内嵌成 base64。 可选是否写入修改时间 / 创建时间;可自定义 ZIP 文件名;同分类下重名便签自动加 _2 、 _3 后缀,不会互相覆盖。 导出出来长什么样 smartisan-notes.zip ├── 工作/ │ ├── 周报模板.md │ └── 周报模板_2.md ← 同名自动加后缀 ├── 生活/ │ └── 灵感.md ├── 未分类/ │ └── ... └── images/ ← 开启「包含图片」时 └── Notes_1699xxxxxx.jpeg 每个 .md 里就是干净的纯文本: 修改时间:2024-08-15 14:32:11 便签正文…… 使用方法 先装 Tampermonkey 或 Violentmonkey (Chrome / Edge / Firefox / Safari 都有) 一键安装 https://greasyfork.org/zh-CN/scripts/576584- 锤子便签导出助手 登录 cloud.smartisan.com 或 yun.smartisan.com ,等便签同步完,点页面右下角的浮动按钮,选「全部导出」或「自定义导出」。 源码 / 反馈: GitHub - anyuxurl/smartisan-notes-export: 锤子便签导出助手 — Tampermonkey/Violentmonkey 油猴版,零依赖,支持 ZIP / 单 Markdown / 多文件三种导出模式 · GitHub 致谢原作者: GitHub - reed-soul/smartisan-notes-saver: 导出锤子便签的chrome插件 · GitHub 1 个帖子 - 1 位参与者 阅读完整话题
锤子便签的笔记一直在云端里,想在本地留一份备份,但官方没有导出功能。 之前在网上找到了一个 Chrome 插件: https://github.com/reed-soul/smartisan-notes-saver 但只能全部导出,并且没办法导出图片。于是最近借助 Claude Code 小改了一下。 功能简介 全部导出 :所有便签按原分类打成一个 ZIP ,文件名用 UTF-8 ,Windows / macOS / Linux 解压中文都不乱码。 自定义导出 :弹出面板按分类勾选你要的便签,支持搜索、文件夹整选、全选,可在「按分类 / 按修改时间」两种排序间切换;选好后打包 ZIP 或逐个下载 .md 。 带上笔记里的图片 (可开关,默认开):ZIP 模式把图片存进 images/ 文件夹、正文用相对路径  引用;逐个导出则内嵌成 base64 。 可选是否写入修改时间 / 创建时间;可自定义 ZIP 文件名;同分类下重名便签自动加 _2 、 _3 后缀,不会互相覆盖。 导出效果 smartisan-notes.zip ├── 工作/ │ ├── 周报模板.md │ └── 周报模板_2.md ← 同名自动加后缀 ├── 生活/ │ └── 灵感.md ├── 未分类/ │ └── ... └── images/ ← 开启「包含图片」时 └── Notes_1699xxxxxx.jpeg 每个 .md 里就是干净的纯文本: 修改时间:2024-08-15 14:32:11 便签正文…… 使用方法 先装 Tampermonkey 或 Violentmonkey ( Chrome / Edge / Firefox / Safari 都有) 一键安装 https://greasyfork.org/zh-CN/scripts/576584- 锤子便签导出助手 登录 cloud.smartisan.com 或 yun.smartisan.com ,等便签同步完,点页面右下角的浮动按钮,选「全部导出」或「自定义导出」。 源码 / 反馈: https://github.com/anyuxurl/smartisan-notes-export 致谢原作者: https://github.com/reed-soul/smartisan-notes-saver
这几天修仙成瘾了 耐何狗天道时不时就给一锤子 昨天突破太快,青云直上三千尺,贸然突破金丹,直接被无情镇杀了 且看今日运势如何 3 个帖子 - 2 位参与者 阅读完整话题
之前看到佬友求推荐剃须刀得到的选项,抄作业入手了个小锤子。太踏马好用了。比如之前的刺激小胡子长得都不快了。 以前用 macbook自带的键盘,感觉超过了我用过的所有键盘,从来没动过用外置键盘的信息。 现在好 ctrl + c 被磨糊了;开始动外置的心思了, 万能的佬友们,有推荐的吗? 期望macbook键盘手感的机械键盘,有吗?办公使用,要小声的,而且尽可能要省力的,完全不追求打击感。 我搜到了个新关键词,矮轴… 看起来是个新东西,有佬友分享使用经验吗? 14 个帖子 - 8 位参与者 阅读完整话题
锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 LLM 的中间层 我问 AI ,企业数字化差什么? 他说最难的是数据清洗,库太多,数据录入不规范,字段命名乱。ai 要靠猜。 所以花了两周写了个中间层,想解决"企业多个数据库接 LLM 时字段乱、权限乱、口径乱"的问题。写了 7000 行 Python 、134 个测试、3 份架构 spec 。然后意识到:我没有用户,没有真实场景验证,可能从头到尾在解决一个我想象出来的问题。 发出来给大家看看,也许有人真遇到过这个痛点,也许大家帮我确认这就是个锤子找钉子。 想解决什么问题 企业内部通常有好几个数据库:销售用 MySQL 、财务用 PostgreSQL 、HR 用 SQL Server 。现在老板说要接 LLM 让业务人员自然语言查数据。 直接接会遇到这些问题: 问题 举例 字段名无意义 aa 字段是单价, hj 是合计,LLM 猜不出来 同名不同义 销售库的"金额"是回款,财务库的"金额"是开票 权限失控 销售员能查到成本和利润率 没有 SQL 审查 LLM 生成的 SQL 可能 DROP TABLE 敏感数据裸奔 手机号身份证明文返回 我的想法是在数据库和 LLM 之间加一层,把这些脏活自动化: 企业数据库群( MySQL/PG/SQLite/Oracle/达梦) ↓ ┌─────────────────────────────────┐ │ KaiwuBridge │ │ 自动理解字段含义(不用人工标注) │ │ 权限控制 + SQL 审查 + 数据脱敏 │ │ 跨库字段自动对齐 │ └─────────────────────────────────┘ ↓ 任意 LLM (本地 Ollama / DeepSeek / GPT ) 核心卖点是 不用人工洗库 ——传统做法是 DBA 花几周给每个字段写注释、建数据字典,我想用 LLM+统计方法自动搞定。 实现了什么 1. 自动理解字段含义(图传播方案) 不是简单让 LLM 看字段名猜含义,而是: 数据画像 :统计每个字段的分布、空值率、唯一值比例 代数关系检测 :自动发现 单价 × 数量 ≈ 合计 这种关系 建图 :把字段、外键、代数关系建成一张依赖图 图传播 :LLM 在图上迭代 3-5 轮,每轮看邻居字段的描述来修正自己的理解 这样即使字段名是 aa ,系统也能通过"aa × 整数字段 ≈ hj"推断出 aa 是单价。 灵感来自 2026 年 3 月的 DBAutoDoc 论文,核心思想是 schema 理解本质上是图结构问题。 2. 七层安全防线 物理层(只读账号)→ SQL 白名单(只允许 SELECT )→ 注释绕过防护 → 字段级权限( LLM 看不到=查不到)→ 行级过滤 RLAC (华东员工只看华东数据)→ 数据脱敏(手机号自动打码)→ 动态脱敏(按角色返回不同精度) 3. 解耦架构(三个接口) GET /v1/context — Agent 获取 schema+权限+映射+歧义信号 POST /v1/execute — Agent 提交 SQL ,中间层负责安全检查+执行+脱敏 POST /v1/chat/completions — OpenAI 兼容接口(兼容层) Agent 层和数据层彻底分离。Agent 只管生成 SQL ,中间层只管安全执行。 4. 跨库字段自动对齐 bge-m3 embedding + Wasserstein 分布距离 主动学习:优先推送置信度 0.6-0.8 的模糊案例给人审核(信息价值最高) 用户确认/拒绝后自动提取规则,不是调阈值 5. 告警过滤 同一个错误短时间内反复出现且从未成功 → 自动压制,不打扰用户。管理员可以看到"僵尸规则"列表。 6. Schema Linking ( LLM 路由) 企业可能有几十张表、几百个字段,不可能全塞给 LLM 。需要根据用户问题精准定位到相关的 2-3 张表。 做法参考了 SchemaGraphSQL ( ACL ARR 2025 ): 建图 :把所有表作为节点,外键关系+跨库映射作为边 LLM 实体提取 :一次调用从问题中提取关键实体,映射到相关表 BFS 扩展 :在图上从相关表出发走 2 跳,把 JOIN 需要的关联表也带上 精选子集 :最多给 LLM 看 5 张表的 schema ,而不是全量几十张 这样 LLM 生成 SQL 时只看到精选的、和问题相关的表,不会被无关表干扰,生成准确率显著提升。 零样本、不需要 embedding 模型、不需要训练。一次 LLM 调用搞定路由。 功能全景(经过几次迭代后的当前状态) 从最初只有"连数据库+调 LLM",到现在塞了一堆功能。用一张表说清楚每个模块干什么: 功能模块 解决什么问题 什么场景用 原理/技术 数据画像 ( profiler.py ) 字段名无意义时无法理解数据 scan 时自动运行,给每个字段建统计档案 空值率/唯一值比例/数值分布/高频值采样 代数关系检测 ( profiler.py ) aa×bb≈cc 这种隐含业务关系人看不出来 同表内数值字段三元组枚举 numpy 向量化计算,5%误差容忍度 图传播引擎 ( graph_propagation.py ) 单看一个字段猜不出含义,需要上下文 scan --semantic 时替代逐字段 LLM 生成 建依赖图→LLM 迭代 3-5 轮→邻居描述作为 context 精化 Schema Linking 路由 ( schema_graph.py ) 几十张表不能全塞给 LLM 每次用户提问时自动触发 外键图+LLM 实体提取+BFS 2 跳扩展,精选≤5 张表 跨库语义匹配 ( matching.py ) 不同库的"金额"可能是不同概念 scan 后自动两两匹配,生成 pending 映射 bge-m3 embedding + Wasserstein 分布距离 主动学习 ( matching.py RuleExtractor) 人工审核效率低,不知道先审哪个 管理界面展示待审核映射时排序 优先推送置信度 0.6-0.8 的案例(信息价值最高) SQL 白名单审查 ( security.py ) LLM 可能生成 DROP TABLE 每次执行 SQL 前强制检查 sqlparse 语法树分析,只放行 SELECT/WITH 字段级权限 ( permissions.py ) 销售员不该看到成本字段 schema 发给 LLM 前过滤 配置 denied_columns ,物理移除字段 行级过滤 RLAC ( executor.py ) 华东员工只能看华东数据 SQL 执行时 CTE 子查询包装注入 WHERE 不依赖 LLM"自觉",执行层强制注入 数据脱敏 ( security.py + executor.py ) 手机号身份证不能明文返回 结果返回前自动处理 正则打码 + 按角色动态精度( full/partial/round ) 告警过滤 ( alert_filter.py ) 同一个错误反复弹出烦死人 兼容层执行失败时判断 滑动窗口频率统计,≥5 次且 0 成功→压制 歧义检测 ( server.py ) "销售额"在两个库都有,用哪个? /v1/context 接口返回歧义信号 语义名片匹配+多库来源检测,含 confidence 数据新鲜度 ( executor.py ) 查到的数据可能是上周的 执行成功后附加提示 查 MAX(updated_at),超 24 小时警告 映射导入导出 ( admin.py ) DBA 想在 Excel 里批量维护映射关系 管理后台 CSV 上传下载 CSV 解析 + LLM 验证层(检查明显错误) 持续学习 ( admin.py + matching.py ) 用户反馈应该让系统越来越准 confirm/reject 映射时自动触发 贝叶斯更新阈值 + 规则提取(不只是调参) 解耦接口 ( server.py ) Agent 层和数据层耦合在一起不好扩展 Agent 自己生成 SQL 时用 context+execute REST 分离:context 只给数据,execute 只管执行 一共 22 个 Python 模块,7015 行代码。说实话写到后面自己都觉得功能堆太多了。 测试和结果 代数关系检测 用 100 行模拟订单数据测试: 召回率:100%( 2/2 个标注关系全部检测到) 误报率:0%(编码字段没有被误判为代数关系) 语义匹配基线(诚实报告) 用 10 对手工标注的跨库字段对测试: **负例拒绝率:100%**(不相关字段不会被误匹配) **正例召回率:0%**(裸英文字段名在 bge-m3 上语义分全部低于阈值) 这个 0%是预期的——证明了图传播层的必要性。裸字段名 sales_amount 和 revenue 的 embedding 相似度只有 0.67 ,低于 0.85 阈值。需要图传播先生成中文描述("每笔订单的含税销售金额"),再做匹配才有意义。 但我还没有在真实数据库上跑过完整流水线。 安全测试 65 个安全测试覆盖:SQL 注入(含注释绕过)、JWT 伪造、越权访问、频率限制、数据脱敏。全部通过。 总计 134 passed, 0 failed, 21 warnings 技术栈 Python 3.12 + FastAPI + SQLAlchemy 2.0 sentence-transformers (bge-m3) 做 embedding numpy/scipy 做统计验证 SQLite 存元数据(零部署) 支持 MySQL / PostgreSQL / SQLite / SQL Server / Oracle / 达梦 / 人大金仓 全部依赖 Apache 2.0 / MIT / BSD ,可商用。 为什么说是锤子找钉子 写完之后冷静下来想了几个问题: 1. 谁是用户? 我假想的场景是"中型企业,有 3-5 个业务数据库,想让业务人员自然语言查数据"。但我没有找到一个具体的企业说"我需要这个"。 2. 真实场景下这个问题存在吗? 也许存在,但解决方案可能不是我想的这样: 大企业有数据中台团队,人工建数据字典不是问题 小企业可能就一个 MySQL ,不需要跨库对齐 中型企业可能更需要的是 BI 工具而不是自然语言查询 3. "不用人工洗库"这个卖点成立吗? 图传播方案理论上能自动理解字段含义,但: 需要 LLM (本地 7B 模型够不够?需要 API 调用?) 准确率未在真实脏数据上验证 企业可能宁愿花一周人工标注也不愿意信任自动化结果 4. 过度工程了吗? 7000 行代码、图传播、主动学习、告警过滤、动态脱敏……如果第一个用户只需要"连 MySQL + 权限控制 + 调 DeepSeek",那 90%的代码都是提前优化。 如果你遇到过这个问题 想听听大家的看法: 是我想的这么简单么数字化落地?LLM + 优化层 计入数据库,就 AI 落地么? 真实企业数字化落地最难攻克什么? 这个方向值得继续做吗?还是应该 pivot 成更具体的东西(比如只做 SQL 安全审查层)? 代码在本地,如果有人感兴趣可以开源。也欢迎直接告诉我这是个伪需求,省得我继续往里面投时间。 参考的论文和开源项目 来源 用在哪 怎么用的 SchemaGraphSQL (ACL ARR 2025) Schema Linking 路由 核心思想:用外键关系图+LLM 实体提取+BFS 路径搜索做 schema linking ,零样本不需要训练。我直接实现了这个方案 DBAutoDoc (2026.03) 图传播引擎 核心思想:schema 理解是图结构问题,通过依赖图迭代传播语义修正直到收敛。我简化了实现,没用原文的 GNN ,直接 LLM 迭代 LLM-FK (2025) 外键发现思路 三 agent 协作( Interpreter/Refiner/Verifier )的思路启发了我的约束发现设计,但我没实现多 agent ,只用了统计方法 Valentine 跨库匹配 baseline schema matching 的开源 benchmark ,参考了它的评估方法论( precision/recall on labeled pairs ) ALITE 约束发现 用数据分析发现函数依赖和包含依赖的思路,我简化成了代数关系检测( A×B≈C ) sentence-transformers embedding 计算 直接用的 bge-m3 模型做字段语义向量化 FastAPI Web 框架 OpenAI 兼容接口 SQLAlchemy 数据库连接 多数据库统一适配层 sqlparse SQL 安全审查 语法树分析,白名单验证,表名提取 部分论文 ai 搜的,,,, 说实话,论文读了不少,但真正落地时大幅简化了。DBAutoDoc 原文用的是 GNN 做图传播,我直接用 LLM 迭代替代了(因为目标场景是企业内部几十张表,不是几千张表的学术 benchmark ,LLM 迭代 3-5 轮完全够用)。 技术细节:Python 3.12 / FastAPI / SQLAlchemy / bge-m3 / 图传播架构 / 134 测试全绿 附仓库(为了避免说推广仓库的,所以放最后): https://github.com/val1813/kwb
锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 LLM 的中间层 我问 AI ,企业数字化差什么? 他说最难的是数据清洗,库太多,数据录入不规范,字段命名乱。ai 要靠猜。 所以花了两周写了个中间层,想解决"企业多个数据库接 LLM 时字段乱、权限乱、口径乱"的问题。写了 7000 行 Python 、134 个测试、3 份架构 spec 。然后意识到:我没有用户,没有真实场景验证,可能从头到尾在解决一个我想象出来的问题。 发出来给大家看看,也许有人真遇到过这个痛点,也许大家帮我确认这就是个锤子找钉子。 想解决什么问题 企业内部通常有好几个数据库:销售用 MySQL 、财务用 PostgreSQL 、HR 用 SQL Server 。现在老板说要接 LLM 让业务人员自然语言查数据。 直接接会遇到这些问题: 问题 举例 字段名无意义 aa 字段是单价, hj 是合计,LLM 猜不出来 同名不同义 销售库的"金额"是回款,财务库的"金额"是开票 权限失控 销售员能查到成本和利润率 没有 SQL 审查 LLM 生成的 SQL 可能 DROP TABLE 敏感数据裸奔 手机号身份证明文返回 我的想法是在数据库和 LLM 之间加一层,把这些脏活自动化: 企业数据库群( MySQL/PG/SQLite/Oracle/达梦) ↓ ┌─────────────────────────────────┐ │ KaiwuBridge │ │ 自动理解字段含义(不用人工标注) │ │ 权限控制 + SQL 审查 + 数据脱敏 │ │ 跨库字段自动对齐 │ └─────────────────────────────────┘ ↓ 任意 LLM (本地 Ollama / DeepSeek / GPT ) 核心卖点是 不用人工洗库 ——传统做法是 DBA 花几周给每个字段写注释、建数据字典,我想用 LLM+统计方法自动搞定。 实现了什么 1. 自动理解字段含义(图传播方案) 不是简单让 LLM 看字段名猜含义,而是: 数据画像 :统计每个字段的分布、空值率、唯一值比例 代数关系检测 :自动发现 单价 × 数量 ≈ 合计 这种关系 建图 :把字段、外键、代数关系建成一张依赖图 图传播 :LLM 在图上迭代 3-5 轮,每轮看邻居字段的描述来修正自己的理解 这样即使字段名是 aa ,系统也能通过"aa × 整数字段 ≈ hj"推断出 aa 是单价。 灵感来自 2026 年 3 月的 DBAutoDoc 论文,核心思想是 schema 理解本质上是图结构问题。 2. 七层安全防线 物理层(只读账号)→ SQL 白名单(只允许 SELECT )→ 注释绕过防护 → 字段级权限( LLM 看不到=查不到)→ 行级过滤 RLAC (华东员工只看华东数据)→ 数据脱敏(手机号自动打码)→ 动态脱敏(按角色返回不同精度) 3. 解耦架构(三个接口) GET /v1/context — Agent 获取 schema+权限+映射+歧义信号 POST /v1/execute — Agent 提交 SQL ,中间层负责安全检查+执行+脱敏 POST /v1/chat/completions — OpenAI 兼容接口(兼容层) Agent 层和数据层彻底分离。Agent 只管生成 SQL ,中间层只管安全执行。 4. 跨库字段自动对齐 bge-m3 embedding + Wasserstein 分布距离 主动学习:优先推送置信度 0.6-0.8 的模糊案例给人审核(信息价值最高) 用户确认/拒绝后自动提取规则,不是调阈值 5. 告警过滤 同一个错误短时间内反复出现且从未成功 → 自动压制,不打扰用户。管理员可以看到"僵尸规则"列表。 6. Schema Linking ( LLM 路由) 企业可能有几十张表、几百个字段,不可能全塞给 LLM 。需要根据用户问题精准定位到相关的 2-3 张表。 做法参考了 SchemaGraphSQL ( ACL ARR 2025 ): 建图 :把所有表作为节点,外键关系+跨库映射作为边 LLM 实体提取 :一次调用从问题中提取关键实体,映射到相关表 BFS 扩展 :在图上从相关表出发走 2 跳,把 JOIN 需要的关联表也带上 精选子集 :最多给 LLM 看 5 张表的 schema ,而不是全量几十张 这样 LLM 生成 SQL 时只看到精选的、和问题相关的表,不会被无关表干扰,生成准确率显著提升。 零样本、不需要 embedding 模型、不需要训练。一次 LLM 调用搞定路由。 功能全景(经过几次迭代后的当前状态) 从最初只有"连数据库+调 LLM",到现在塞了一堆功能。用一张表说清楚每个模块干什么: 功能模块 解决什么问题 什么场景用 原理/技术 数据画像 ( profiler.py ) 字段名无意义时无法理解数据 scan 时自动运行,给每个字段建统计档案 空值率/唯一值比例/数值分布/高频值采样 代数关系检测 ( profiler.py ) aa×bb≈cc 这种隐含业务关系人看不出来 同表内数值字段三元组枚举 numpy 向量化计算,5%误差容忍度 图传播引擎 ( graph_propagation.py ) 单看一个字段猜不出含义,需要上下文 scan --semantic 时替代逐字段 LLM 生成 建依赖图→LLM 迭代 3-5 轮→邻居描述作为 context 精化 Schema Linking 路由 ( schema_graph.py ) 几十张表不能全塞给 LLM 每次用户提问时自动触发 外键图+LLM 实体提取+BFS 2 跳扩展,精选≤5 张表 跨库语义匹配 ( matching.py ) 不同库的"金额"可能是不同概念 scan 后自动两两匹配,生成 pending 映射 bge-m3 embedding + Wasserstein 分布距离 主动学习 ( matching.py RuleExtractor) 人工审核效率低,不知道先审哪个 管理界面展示待审核映射时排序 优先推送置信度 0.6-0.8 的案例(信息价值最高) SQL 白名单审查 ( security.py ) LLM 可能生成 DROP TABLE 每次执行 SQL 前强制检查 sqlparse 语法树分析,只放行 SELECT/WITH 字段级权限 ( permissions.py ) 销售员不该看到成本字段 schema 发给 LLM 前过滤 配置 denied_columns ,物理移除字段 行级过滤 RLAC ( executor.py ) 华东员工只能看华东数据 SQL 执行时 CTE 子查询包装注入 WHERE 不依赖 LLM"自觉",执行层强制注入 数据脱敏 ( security.py + executor.py ) 手机号身份证不能明文返回 结果返回前自动处理 正则打码 + 按角色动态精度( full/partial/round ) 告警过滤 ( alert_filter.py ) 同一个错误反复弹出烦死人 兼容层执行失败时判断 滑动窗口频率统计,≥5 次且 0 成功→压制 歧义检测 ( server.py ) "销售额"在两个库都有,用哪个? /v1/context 接口返回歧义信号 语义名片匹配+多库来源检测,含 confidence 数据新鲜度 ( executor.py ) 查到的数据可能是上周的 执行成功后附加提示 查 MAX(updated_at),超 24 小时警告 映射导入导出 ( admin.py ) DBA 想在 Excel 里批量维护映射关系 管理后台 CSV 上传下载 CSV 解析 + LLM 验证层(检查明显错误) 持续学习 ( admin.py + matching.py ) 用户反馈应该让系统越来越准 confirm/reject 映射时自动触发 贝叶斯更新阈值 + 规则提取(不只是调参) 解耦接口 ( server.py ) Agent 层和数据层耦合在一起不好扩展 Agent 自己生成 SQL 时用 context+execute REST 分离:context 只给数据,execute 只管执行 一共 22 个 Python 模块,7015 行代码。说实话写到后面自己都觉得功能堆太多了。 测试和结果 代数关系检测 用 100 行模拟订单数据测试: 召回率:100%( 2/2 个标注关系全部检测到) 误报率:0%(编码字段没有被误判为代数关系) 语义匹配基线(诚实报告) 用 10 对手工标注的跨库字段对测试: **负例拒绝率:100%**(不相关字段不会被误匹配) **正例召回率:0%**(裸英文字段名在 bge-m3 上语义分全部低于阈值) 这个 0%是预期的——证明了图传播层的必要性。裸字段名 sales_amount 和 revenue 的 embedding 相似度只有 0.67 ,低于 0.85 阈值。需要图传播先生成中文描述("每笔订单的含税销售金额"),再做匹配才有意义。 但我还没有在真实数据库上跑过完整流水线。 安全测试 65 个安全测试覆盖:SQL 注入(含注释绕过)、JWT 伪造、越权访问、频率限制、数据脱敏。全部通过。 总计 134 passed, 0 failed, 21 warnings 技术栈 Python 3.12 + FastAPI + SQLAlchemy 2.0 sentence-transformers (bge-m3) 做 embedding numpy/scipy 做统计验证 SQLite 存元数据(零部署) 支持 MySQL / PostgreSQL / SQLite / SQL Server / Oracle / 达梦 / 人大金仓 全部依赖 Apache 2.0 / MIT / BSD ,可商用。 为什么说是锤子找钉子 写完之后冷静下来想了几个问题: 1. 谁是用户? 我假想的场景是"中型企业,有 3-5 个业务数据库,想让业务人员自然语言查数据"。但我没有找到一个具体的企业说"我需要这个"。 2. 真实场景下这个问题存在吗? 也许存在,但解决方案可能不是我想的这样: 大企业有数据中台团队,人工建数据字典不是问题 小企业可能就一个 MySQL ,不需要跨库对齐 中型企业可能更需要的是 BI 工具而不是自然语言查询 3. "不用人工洗库"这个卖点成立吗? 图传播方案理论上能自动理解字段含义,但: 需要 LLM (本地 7B 模型够不够?需要 API 调用?) 准确率未在真实脏数据上验证 企业可能宁愿花一周人工标注也不愿意信任自动化结果 4. 过度工程了吗? 7000 行代码、图传播、主动学习、告警过滤、动态脱敏……如果第一个用户只需要"连 MySQL + 权限控制 + 调 DeepSeek",那 90%的代码都是提前优化。 如果你遇到过这个问题 想听听大家的看法: 是我想的这么简单么数字化落地?LLM + 优化层 计入数据库,就 AI 落地么? 真实企业数字化落地最难攻克什么? 这个方向值得继续做吗?还是应该 pivot 成更具体的东西(比如只做 SQL 安全审查层)? 代码在本地,如果有人感兴趣可以开源。也欢迎直接告诉我这是个伪需求,省得我继续往里面投时间。 参考的论文和开源项目 来源 用在哪 怎么用的 SchemaGraphSQL (ACL ARR 2025) Schema Linking 路由 核心思想:用外键关系图+LLM 实体提取+BFS 路径搜索做 schema linking ,零样本不需要训练。我直接实现了这个方案 DBAutoDoc (2026.03) 图传播引擎 核心思想:schema 理解是图结构问题,通过依赖图迭代传播语义修正直到收敛。我简化了实现,没用原文的 GNN ,直接 LLM 迭代 LLM-FK (2025) 外键发现思路 三 agent 协作( Interpreter/Refiner/Verifier )的思路启发了我的约束发现设计,但我没实现多 agent ,只用了统计方法 Valentine 跨库匹配 baseline schema matching 的开源 benchmark ,参考了它的评估方法论( precision/recall on labeled pairs ) ALITE 约束发现 用数据分析发现函数依赖和包含依赖的思路,我简化成了代数关系检测( A×B≈C ) sentence-transformers embedding 计算 直接用的 bge-m3 模型做字段语义向量化 FastAPI Web 框架 OpenAI 兼容接口 SQLAlchemy 数据库连接 多数据库统一适配层 sqlparse SQL 安全审查 语法树分析,白名单验证,表名提取 部分论文 ai 搜的,,,, 说实话,论文读了不少,但真正落地时大幅简化了。DBAutoDoc 原文用的是 GNN 做图传播,我直接用 LLM 迭代替代了(因为目标场景是企业内部几十张表,不是几千张表的学术 benchmark ,LLM 迭代 3-5 轮完全够用)。 技术细节:Python 3.12 / FastAPI / SQLAlchemy / bge-m3 / 图传播架构 / 134 测试全绿 附仓库(为了避免说推广仓库的,所以放最后): https://github.com/val1813/kwb
锤子找钉子的项目分享:假想企业本地部署后不用人工洗库接入 LLM 的中间层 我问 AI ,企业数字化差什么? 他说最难的是数据清洗,库太多,数据录入不规范,字段命名乱。ai 要靠猜。 所以花了两周写了个中间层,想解决"企业多个数据库接 LLM 时字段乱、权限乱、口径乱"的问题。写了 7000 行 Python 、134 个测试、3 份架构 spec 。然后意识到:我没有用户,没有真实场景验证,可能从头到尾在解决一个我想象出来的问题。 发出来给大家看看,也许有人真遇到过这个痛点,也许大家帮我确认这就是个锤子找钉子。 想解决什么问题 企业内部通常有好几个数据库:销售用 MySQL 、财务用 PostgreSQL 、HR 用 SQL Server 。现在老板说要接 LLM 让业务人员自然语言查数据。 直接接会遇到这些问题: 问题 举例 字段名无意义 aa 字段是单价, hj 是合计,LLM 猜不出来 同名不同义 销售库的"金额"是回款,财务库的"金额"是开票 权限失控 销售员能查到成本和利润率 没有 SQL 审查 LLM 生成的 SQL 可能 DROP TABLE 敏感数据裸奔 手机号身份证明文返回 我的想法是在数据库和 LLM 之间加一层,把这些脏活自动化: 企业数据库群( MySQL/PG/SQLite/Oracle/达梦) ↓ ┌─────────────────────────────────┐ │ KaiwuBridge │ │ 自动理解字段含义(不用人工标注) │ │ 权限控制 + SQL 审查 + 数据脱敏 │ │ 跨库字段自动对齐 │ └─────────────────────────────────┘ ↓ 任意 LLM (本地 Ollama / DeepSeek / GPT ) 核心卖点是 不用人工洗库 ——传统做法是 DBA 花几周给每个字段写注释、建数据字典,我想用 LLM+统计方法自动搞定。 实现了什么 1. 自动理解字段含义(图传播方案) 不是简单让 LLM 看字段名猜含义,而是: 数据画像 :统计每个字段的分布、空值率、唯一值比例 代数关系检测 :自动发现 单价 × 数量 ≈ 合计 这种关系 建图 :把字段、外键、代数关系建成一张依赖图 图传播 :LLM 在图上迭代 3-5 轮,每轮看邻居字段的描述来修正自己的理解 这样即使字段名是 aa ,系统也能通过"aa × 整数字段 ≈ hj"推断出 aa 是单价。 灵感来自 2026 年 3 月的 DBAutoDoc 论文,核心思想是 schema 理解本质上是图结构问题。 2. 七层安全防线 物理层(只读账号)→ SQL 白名单(只允许 SELECT )→ 注释绕过防护 → 字段级权限( LLM 看不到=查不到)→ 行级过滤 RLAC (华东员工只看华东数据)→ 数据脱敏(手机号自动打码)→ 动态脱敏(按角色返回不同精度) 3. 解耦架构(三个接口) GET /v1/context — Agent 获取 schema+权限+映射+歧义信号 POST /v1/execute — Agent 提交 SQL ,中间层负责安全检查+执行+脱敏 POST /v1/chat/completions — OpenAI 兼容接口(兼容层) Agent 层和数据层彻底分离。Agent 只管生成 SQL ,中间层只管安全执行。 4. 跨库字段自动对齐 bge-m3 embedding + Wasserstein 分布距离 主动学习:优先推送置信度 0.6-0.8 的模糊案例给人审核(信息价值最高) 用户确认/拒绝后自动提取规则,不是调阈值 5. 告警过滤 同一个错误短时间内反复出现且从未成功 → 自动压制,不打扰用户。管理员可以看到"僵尸规则"列表。 6. Schema Linking ( LLM 路由) 企业可能有几十张表、几百个字段,不可能全塞给 LLM 。需要根据用户问题精准定位到相关的 2-3 张表。 做法参考了 SchemaGraphSQL ( ACL ARR 2025 ): 建图 :把所有表作为节点,外键关系+跨库映射作为边 LLM 实体提取 :一次调用从问题中提取关键实体,映射到相关表 BFS 扩展 :在图上从相关表出发走 2 跳,把 JOIN 需要的关联表也带上 精选子集 :最多给 LLM 看 5 张表的 schema ,而不是全量几十张 这样 LLM 生成 SQL 时只看到精选的、和问题相关的表,不会被无关表干扰,生成准确率显著提升。 零样本、不需要 embedding 模型、不需要训练。一次 LLM 调用搞定路由。 功能全景(经过几次迭代后的当前状态) 从最初只有"连数据库+调 LLM",到现在塞了一堆功能。用一张表说清楚每个模块干什么: 功能模块 解决什么问题 什么场景用 原理/技术 数据画像 ( profiler.py ) 字段名无意义时无法理解数据 scan 时自动运行,给每个字段建统计档案 空值率/唯一值比例/数值分布/高频值采样 代数关系检测 ( profiler.py ) aa×bb≈cc 这种隐含业务关系人看不出来 同表内数值字段三元组枚举 numpy 向量化计算,5%误差容忍度 图传播引擎 ( graph_propagation.py ) 单看一个字段猜不出含义,需要上下文 scan --semantic 时替代逐字段 LLM 生成 建依赖图→LLM 迭代 3-5 轮→邻居描述作为 context 精化 Schema Linking 路由 ( schema_graph.py ) 几十张表不能全塞给 LLM 每次用户提问时自动触发 外键图+LLM 实体提取+BFS 2 跳扩展,精选≤5 张表 跨库语义匹配 ( matching.py ) 不同库的"金额"可能是不同概念 scan 后自动两两匹配,生成 pending 映射 bge-m3 embedding + Wasserstein 分布距离 主动学习 ( matching.py RuleExtractor) 人工审核效率低,不知道先审哪个 管理界面展示待审核映射时排序 优先推送置信度 0.6-0.8 的案例(信息价值最高) SQL 白名单审查 ( security.py ) LLM 可能生成 DROP TABLE 每次执行 SQL 前强制检查 sqlparse 语法树分析,只放行 SELECT/WITH 字段级权限 ( permissions.py ) 销售员不该看到成本字段 schema 发给 LLM 前过滤 配置 denied_columns ,物理移除字段 行级过滤 RLAC ( executor.py ) 华东员工只能看华东数据 SQL 执行时 CTE 子查询包装注入 WHERE 不依赖 LLM"自觉",执行层强制注入 数据脱敏 ( security.py + executor.py ) 手机号身份证不能明文返回 结果返回前自动处理 正则打码 + 按角色动态精度( full/partial/round ) 告警过滤 ( alert_filter.py ) 同一个错误反复弹出烦死人 兼容层执行失败时判断 滑动窗口频率统计,≥5 次且 0 成功→压制 歧义检测 ( server.py ) "销售额"在两个库都有,用哪个? /v1/context 接口返回歧义信号 语义名片匹配+多库来源检测,含 confidence 数据新鲜度 ( executor.py ) 查到的数据可能是上周的 执行成功后附加提示 查 MAX(updated_at),超 24 小时警告 映射导入导出 ( admin.py ) DBA 想在 Excel 里批量维护映射关系 管理后台 CSV 上传下载 CSV 解析 + LLM 验证层(检查明显错误) 持续学习 ( admin.py + matching.py ) 用户反馈应该让系统越来越准 confirm/reject 映射时自动触发 贝叶斯更新阈值 + 规则提取(不只是调参) 解耦接口 ( server.py ) Agent 层和数据层耦合在一起不好扩展 Agent 自己生成 SQL 时用 context+execute REST 分离:context 只给数据,execute 只管执行 一共 22 个 Python 模块,7015 行代码。说实话写到后面自己都觉得功能堆太多了。 测试和结果 代数关系检测 用 100 行模拟订单数据测试: 召回率:100%( 2/2 个标注关系全部检测到) 误报率:0%(编码字段没有被误判为代数关系) 语义匹配基线(诚实报告) 用 10 对手工标注的跨库字段对测试: **负例拒绝率:100%**(不相关字段不会被误匹配) **正例召回率:0%**(裸英文字段名在 bge-m3 上语义分全部低于阈值) 这个 0%是预期的——证明了图传播层的必要性。裸字段名 sales_amount 和 revenue 的 embedding 相似度只有 0.67 ,低于 0.85 阈值。需要图传播先生成中文描述("每笔订单的含税销售金额"),再做匹配才有意义。 但我还没有在真实数据库上跑过完整流水线。 安全测试 65 个安全测试覆盖:SQL 注入(含注释绕过)、JWT 伪造、越权访问、频率限制、数据脱敏。全部通过。 总计 134 passed, 0 failed, 21 warnings 技术栈 Python 3.12 + FastAPI + SQLAlchemy 2.0 sentence-transformers (bge-m3) 做 embedding numpy/scipy 做统计验证 SQLite 存元数据(零部署) 支持 MySQL / PostgreSQL / SQLite / SQL Server / Oracle / 达梦 / 人大金仓 全部依赖 Apache 2.0 / MIT / BSD ,可商用。 为什么说是锤子找钉子 写完之后冷静下来想了几个问题: 1. 谁是用户? 我假想的场景是"中型企业,有 3-5 个业务数据库,想让业务人员自然语言查数据"。但我没有找到一个具体的企业说"我需要这个"。 2. 真实场景下这个问题存在吗? 也许存在,但解决方案可能不是我想的这样: 大企业有数据中台团队,人工建数据字典不是问题 小企业可能就一个 MySQL ,不需要跨库对齐 中型企业可能更需要的是 BI 工具而不是自然语言查询 3. "不用人工洗库"这个卖点成立吗? 图传播方案理论上能自动理解字段含义,但: 需要 LLM (本地 7B 模型够不够?需要 API 调用?) 准确率未在真实脏数据上验证 企业可能宁愿花一周人工标注也不愿意信任自动化结果 4. 过度工程了吗? 7000 行代码、图传播、主动学习、告警过滤、动态脱敏……如果第一个用户只需要"连 MySQL + 权限控制 + 调 DeepSeek",那 90%的代码都是提前优化。 如果你遇到过这个问题 想听听大家的看法: 是我想的这么简单么数字化落地?LLM + 优化层 计入数据库,就 AI 落地么? 真实企业数字化落地最难攻克什么? 这个方向值得继续做吗?还是应该 pivot 成更具体的东西(比如只做 SQL 安全审查层)? 代码在本地,如果有人感兴趣可以开源。也欢迎直接告诉我这是个伪需求,省得我继续往里面投时间。 参考的论文和开源项目 来源 用在哪 怎么用的 SchemaGraphSQL (ACL ARR 2025) Schema Linking 路由 核心思想:用外键关系图+LLM 实体提取+BFS 路径搜索做 schema linking ,零样本不需要训练。我直接实现了这个方案 DBAutoDoc (2026.03) 图传播引擎 核心思想:schema 理解是图结构问题,通过依赖图迭代传播语义修正直到收敛。我简化了实现,没用原文的 GNN ,直接 LLM 迭代 LLM-FK (2025) 外键发现思路 三 agent 协作( Interpreter/Refiner/Verifier )的思路启发了我的约束发现设计,但我没实现多 agent ,只用了统计方法 Valentine 跨库匹配 baseline schema matching 的开源 benchmark ,参考了它的评估方法论( precision/recall on labeled pairs ) ALITE 约束发现 用数据分析发现函数依赖和包含依赖的思路,我简化成了代数关系检测( A×B≈C ) sentence-transformers embedding 计算 直接用的 bge-m3 模型做字段语义向量化 FastAPI Web 框架 OpenAI 兼容接口 SQLAlchemy 数据库连接 多数据库统一适配层 sqlparse SQL 安全审查 语法树分析,白名单验证,表名提取 部分论文 ai 搜的,,,, 说实话,论文读了不少,但真正落地时大幅简化了。DBAutoDoc 原文用的是 GNN 做图传播,我直接用 LLM 迭代替代了(因为目标场景是企业内部几十张表,不是几千张表的学术 benchmark ,LLM 迭代 3-5 轮完全够用)。 技术细节:Python 3.12 / FastAPI / SQLAlchemy / bge-m3 / 图传播架构 / 134 测试全绿 附仓库(为了避免说推广仓库的,所以放最后): https://github.com/val1813/kwb
总看到各位佬说的各种词,苹果手机别的的区,我区注册发现,限制我注册别的区的苹果ID, 我也看有说google play 商店,这个时安卓的吧?但是我的锤子手机好像下载不了啊? 有没有佬给个解决方案啊??? 2 个帖子 - 2 位参与者 阅读完整话题
今日热点导览 SpaceX据悉将其IPO的日本融资目标提高至25亿美元 二手房挂牌量回落新房库存下降,楼市供需关系向好 B站宣布启动AI创造公开赛 TOP3大新闻 数据显示,豆包推出付费后月活减少610万 据全球人工智能市场追踪机构Aicpb.com周三发布的数据显示,在豆包推出订阅选项后,该应用5月份的月活跃用户(MAU)减少了610万,这是自2023年推出以来该应用罕见的下滑。Aicpb.com创始人李邦竹表示:“中国的免费人工智能服务时代还远未结束,所以豆包的商业化可能确实为时过早。” 有分析人士认为,字节跳动过早地将盈利模式商业化,可能会使其在中国竞争激烈的消费人工智能市场中失去领先地位。此前,其旗舰聊天机器人豆包在试水付费订阅模式后流失了数百万用户。(南华早报) Anthropic呼吁全球放缓AI开发,警告AI“自我改进”风险 据《华尔街日报》,AI创业公司Anthropic呼吁全球顶尖AI实验室考虑放缓研发步伐,理由是当前AI系统进步太快,可能很快就能在无需人类干预的情况下自我改进,从而带来重大的社会风险。 Anthropic周四在一篇博客文章中表示,如果能够放缓全球AI发展的速度,这“很可能是一件好事”。文章同时披露了Anthropic内部数据,展示其最先进AI模型能力提升的速度之快。(凤凰网科技) 罗永浩卸任锤子软件公司执行董事,已累计偿还近10亿元债务 国家企业信用信息公示系统显示,锤子科技创始人罗永浩工商职务发生变动,在锤子软件(北京)有限公司的职务由“执行董事”变更为“董事”,这是罗永浩近年来又一次退出锤子系企业核心管理岗位。 对此,锤子科技内部知情人士向媒体透露,此次职务调整为企业常规工商变更,属于公司既定人事安排,无特殊变动原因。 针对最新还债进度,上述知情人士向记者透露, 目前罗永浩已累计偿还近10亿元债务,剩余债务的清偿工作正在稳步推进中,其本人亦在全力投入工作以加快完成后续还款计划。(大河报) AI最前沿 黄仁勋:SK海力士、三星、美光已通过认证,将量产最新AI内存 英伟达CEO黄仁勋表示,三大内存芯片制造商已获准为英伟达AI加速器供应最先进的高带宽产品。这一决定意味着SK海力士、三星电子和美光科技可开始量产并供应HBM4,即用于英伟达AI加速器的最新一代芯片。这三家企业主导着全球计算用存储半导体市场,此前一直在激烈争夺该业务份额。黄仁勋在抵达首尔进行为期数日的访问时告诉记者:“三家供应商均已通过认证。”他补充道:“三家企业都已投产,都在竞相支持Vera Rubin。”Vera Rubin是英伟达最新AI芯片。(新浪财经) 腾讯高管:今年腾讯大部分代码都由AI生成 36氪获悉,在腾讯云AI产业应用大会上,腾讯高级执行副总裁汤道生在与腾讯首席AI科学家姚顺雨的对话中表示,今年腾讯大部分代码都是由AI生成,腾讯的工程师可能会花更多的时间去做架构设计等,他们把写代码的工作都交给AI了,定期指导、修正AI写的东西。 腾讯云TokenHub:连续多月翻倍,日Token消耗量跃升至5万亿 36氪获悉,在5日举行的腾讯云AI产业应用大会上,腾讯云总经理、TokenHub负责人高航透露,腾讯云大模型服务平台TokenHub上线3个月,保持每月翻倍的增长态势,目前日Token消耗量已突破5万亿。 大公司/大事件 SpaceX据悉将其IPO的日本融资目标提高至25亿美元 SpaceX已将其在日本发行股票的计划筹集金额增加了四分之一,这表明日本散户投资者的需求强劲。据监管文件披露,SpaceX目前正寻求从日本投资者那里筹集至多25亿美元的资金,高于上周披露的20亿美元。文件显示,日本投资者获配1480万至1850万股A类股,初步定价为每股135美元。日本部分的认购登记将于本周五开始,持续至下周晚些时候。(新浪财经) 国办:对私募证券基金加大监测力度,强化交易行为监管 36氪获悉,国务院办公厅发布《关于加强监管防范风险促进私募投资基金高质量发展的指导意见》,其中提出,细化私募基金风险评价标准,提升监管强度与风险水平适配性,按照评价结果对不同私募基金管理人实施差异化监管。对重点私募基金管理人依法加大现场检查力度,加强央地和跨辖区联合检查。对异地经营的私募基金管理人加大监管力度,引导注册地与经营地相统一。对存在违规代持、通道化等情形的私募基金管理人加大规范引导力度,推动主动整改。对私募证券基金加大监测力度,强化交易行为监管。 二手房挂牌量回落,新房库存下降,楼市供需关系向好 在住房需求集中释放的背景下,房地产市场持续企稳,市场成交保持高活跃度。受此影响,市场供给端出现积极信号,供需关系向好发展。在二手房市场,中指研究院数据显示,5月份重点25城二手房新增挂牌房源达12万套,同比下降约41%。(证券日报) 现货黄金回吐年内涨幅 现货黄金回吐今年以来的全部涨幅,此前美国公布的就业数据强化了市场对美联储加息的预期。(金十数据APP) 湘雅二医院逾8亿元工程招标收到投诉:首次公示前六家单位落选,第八名“逆袭”中标 2026年3月17日,中南大学湘雅二医院国家紧急医学救援基地建设施工总承包进行了合同公示,对于招投标的结果,多家投标单位向记者反映称,项目(总投资估算8.27亿元)的招标结果存在重大异常。合同公示显示,最终中标单位为首次候选人公示中排名第八的湖南省第四工程有限公司联合体。 记者了解到,在2025年12月11日的二次公示中,2025年10月30日第一次公示的6家中标候选人被全部更换。“第八名逆袭”让众多参与投标企业表示不解。 2026年1月14日,招标方发布公告称,“因本项目收到相关投诉,暂停本项目的招投标活动”,并表示投标有限期相应延长90天。然而,两个月后,项目招标进行的最终合同公示中,中标方仍为二次公示的中标者湖南省第四工程有限公司联合体。 近日,记者分别向湘雅附二院和长沙市招投标中心、长沙市住建局、招标代理机构中技建设咨询有限公司等发去采访要求,均未得到明确回复。(澎湃新闻) 美股收盘:纳指跌超4% 半导体股多数下跌 美股周五收盘,道指初步收跌1.35%,标普500指数跌2.65%,纳指跌4.18%,其中,标普500指数创下自2025年10月以来最大单日跌幅;纳指创下自2025年4月以来最大单日跌幅。半导体板块多数下跌,费城半导体指数尾盘跌幅扩大至10%,创2025年4月以来最大单日跌幅。英伟达(NVDA.O)跌超6%,台积电(TSM.N)跌6.68%,博通(AVGO.O)跌近8%,英特尔(INTC.O)跌超11%。纳斯达克中国金龙指数收跌3.56%,小马智行(PONY.O)跌9.83%,百度(BIDU.O)跌9.75%,金山云(KC.O)跌6.70%。(金十数据APP) 追觅产业基金人士:目前基金运营一切正常 据蓝鲸新闻,有地方对辖区内企业与追觅的合作情况开展摸排的消息,再次引发关注。摸排内容涵盖合作项目、总体规模、资金投入、财政及国资参与情况、当前经营状况等。对此,追觅一位负责产业基金运作的人士向记者表示:“或是相关事宜有人员行事过于高调,但现阶段基金运营一切正常。”(财联社) 俞浩内部发文:未来将继续心无旁骛做实业 6月5日下午,追觅科技创始人俞浩在公司内部大群发文,表示未来将继续心无旁骛做实业,坚持技术创新,去啃全球最难的市场。(界面新闻) 国办:严控新设政府投资基金,县区原则上不得新设 36氪获悉,国务院办公厅发布《关于加强监管防范风险促进私募投资基金高质量发展的指导意见》,其中提出,优化私募基金登记备案规则,坚决防止不符合私募基金特征和运作规律的机构和产品作为私募基金登记备案。严控新设政府投资基金,县区原则上不得新设,确有必要新设的应当报上级人民政府批准。加强综合研判会商、经营主体登记、私募基金登记备案等的信息共享和工作衔接。 乌拉圭宣布对中国公民免签 乌拉圭外交部长卢贝特金宣布,这一南美国家将对中国公民免签。(新华社) 丰田叫停雷克萨斯LF-ZC量产,回应:不是放弃纯电车 近日,有消息称,丰田叫停了雷克萨斯纯电动轿车LF-ZC量产车型的开发。该车型流线型、车高较低的“轿跑(Coupe)”款,原计划以铝铸造实现零部件一体成型的“一体化压铸”。按照原计划,LF-ZC量产车型将于2026年底在丰田日本国内的田原工厂投产,之后这一计划被推迟至2027年中期,直至如今被叫停。 “本次车型开发中止,主要是考虑到了市场需求的变化,这也是公司对整体车辆开发项目进行调整的一部分,但并不代表公司放弃了BEV(纯电动汽车)。”针对上述车型研发暂停的原因,丰田中国相关工作人员回应称。(每经网) 全国首张“无目的地海上游”出入境通行证在上海签发 4日,全国首张“无目的地海上游”出入境通行证在上海签发。该证件落地后,游客可依托相关政策实现免办签证、短途出海度假,进一步丰富国内邮轮出游选择。(央视新闻) 韩国股市因科技股抛售大幅下挫,创下3月以来最差单周表现 韩国股市周五大幅下挫,创下自3月底以来最大单周跌幅,因全球科技股回调及美伊和谈陷入僵局,严重打击了投资者的风险偏好。韩元兑美元汇率跌至2009年以来最低水平,同时债券收益率飙升,促使包括财政部长具允哲在内的政府官员发出口头警告,反对投机性的单边押注。(新浪财经) 苹果:全球App Store生态系统规模达1.4万亿美元 苹果公司宣布,根据分析集团(Analysis Group)经济学家的一项最新研究,2025年全球App Store生态系统促成的开发者计费与销售额超过1.4万亿美元,创下历史新高。(界面新闻) 证监会:下一步将制定落实《指导意见》的三年行动方案 36氪获悉,中国证监会新闻发言人就《国务院办公厅关于加强监管防范风险促进私募投资基金高质量发展的指导意见》答记者问。《指导意见》是私募基金领域“1+N+X”制度体系中的方向性、基础性文件。下一步,中国证监会将坚决贯彻党:中央、国务院决策部署,制定落实《指导意见》的三年行动方案,并积极会同宏观政策部门、国:资及行业主管部门、金融管理部门、公安机关、地方政府等,进一步增强责任意识,密切协作形成合力,推动各项任务、工作落地见效。 谷歌将在美国得州新建数据中心和能源设施 谷歌和Intersect宣布将在美国得州建设Meitner能源中心,该中心将包括一座新的数据中心以及配套的能源发电设施。(界面新闻) 中信证券:建议以“AI+能化”的新杠铃结构作为兼顾降波与收益的战略解 36氪获悉,中信证券研报表示,当前A股资金缩圈与虹吸、个股收益率分化均已触及历史极值,头部资产与长尾资产的收益率相关系数正逼近0.5的背离临界点。复盘历史,极致缩圈见顶并不决定大盘方向,但相关性背离往往预示着前期抱团的主线步入休整,资金行为与市场情绪面临结构性切换。展望后市,市场能否从极致分化走向系统性收敛,取决于宏观基本面增长与全球流动性能否实现顺畅接力。在宏观外部靴子落地前的模糊期,单纯依赖产业微观叙事已很难打破“缩圈”僵局,建议以“AI+能化”的新杠铃结构作为兼顾降波与收益的战略解。 小鹏机器人核心产品一号位施晓鑫6月初主动离职 36氪独家获悉,小鹏机器人产品规划高级总监施晓鑫已于6月初正式离职。关于施晓鑫的下一步去向,目前尚不明确。多位信源透露,施晓鑫现阶段无求职意向。知情人士称,施晓鑫已婉拒多家头部机器人企业和造车新势力的邀约,短期暂停职场择业,优先休整。 B站宣布启动AI创造公开赛 36氪获悉,哔哩哔哩(以下简称"B站")正式启动“build in bilibili · AI创造公开赛”(以下简称B站AI创造公开赛),并公布参赛规则。比赛不设年龄、学历、职业与经验等参赛门槛,并首次将评选权交给用户——所有B站用户均可通过投币、弹幕等方式参与创作并选出认可的产品。 英特尔与日立公司合作,推动芯片等制造设施的自动化 英特尔将与日本日立公司合作,提高制造设施的机器人良率和能源效率,其中包括这家美国芯片制造商自身的工厂。两家公司周五在声明中表示,英特尔的晶圆厂将使用日立的人工智能服务HMAX Energy。(新浪财经) 夸克升级高考志愿填报产品 36氪获悉,夸克推出全新升级的高考频道,为千万考生免费提供“高考搜索”“智能选志愿”“志愿表”“志愿报告”等功能。夸克高考志愿工具也将接入千问App。 爱彼迎CEO计划创办一家新的人工智能公司 据多位知情人士称,爱彼迎首席执行官Brian Chesky正在筹建一家新的人工智能(AI)实验室,这标志着他首次涉足全球AI竞赛。Chesky计划创办一家AI公司以开发人工智能模型,并正在考虑将重点放在用户交互和设计上。(财联社) 谷歌计划投放3200万只蚊子,通过不育雄蚊减少繁殖周期内的蚊子总数量 近日,谷歌正通过其母公司Alphabet旗下的生物技术公司Verily,寻求美国监管部门的批准,计划在未来两年内在加利福尼亚州和佛罗里达州投放多达3200万只蚊子。 这项计划是谷歌长期开展的“调试项目”(Debug Project)的一部分,旨在减少蚊子数量,限制蚊媒疾病的传播。 该项目依赖于释放经过特殊培育、无法产生可育后代的雄蚊。 当这些雄蚊与野生雌蚊交配时,蚊卵无法孵化,从而在多个繁殖周期内逐渐减少蚊子的总数量。研究人员希望减少蚊子的数量,从而能够降低蚊子传播疾病的风险。该项目的技术基本原理被称为不育昆虫技术,可以追溯到20世纪50年代,并已成功用于防治果蝇、螺旋蝇和苹果蠹蛾等农业害虫。(现代快报) Anthropic联合创始人称高昂的AI模型开发成本推动公司寻求上市 Anthropic PBC联合创始人兼总裁Daniela Amodei表示,开发人工智能模型的高昂成本正迫使像Anthropic这样的公司寻求上市融资。几天前,这家人工智能工具Claude的制造商保密提交了IPO注册文件草案。“训练人工智能模型是一项高度资本密集型的业务,”Amodei周四在彭博科技大会上被问及像Anthropic这样的公司上市的利弊时说道。她补充说,公开市场“非常适合这种情况”。(新浪财经) 大公司财报 鸿海5月营收8594亿新台币,为历年同期最高 6月5日,鸿海公布,2026年5月营收为新台币8594亿,月增3.28%,年增39.57%,为历年同期最高。2026年累计前5月营收为3.8211万亿,年增31.79%,为历年同期最高。(界面新闻) 投融资 Quobly完成1.15亿欧元A轮融资 法国量子计算公司Quobly宣布完成1.15亿欧元A轮融资,旨在加速其硅基量子计算机的产业化进程,并计划于2026年底前将首款商用产品推向市场。本轮融资由Bpifrance、SEALSQ和意法半导体领投,欧洲创新理事会、Blast、ALIAD以及现有投资者Innovacom参与投资。(界面新闻) 开源后端平台Supabase融资5亿美元,投后估值105亿美元 开源后端平台(BaaS)Supabase宣布完成5亿美元F轮融资,投后估值达105亿美元。本轮融资由GIC领投,其他投资者包括Accel、Y Combinator、Craft、Felicis、Coatue和金融科技创企Stripe。(新浪财经) “毫秒智控”完成数千万元天使+轮融资 36氪获悉,线控底盘核心零部件供应商“毫秒智控”已于近期完成数千万元天使+轮融资,本轮投资方为松禾资本和苏高新融晟。这也是公司成立仅一年以来,继获得厚雪资本天使轮独家投资后,接连完成的第二轮融资。 “原力灵机”完成新一轮融资 36氪获悉,具身智能企业“原力灵机”近期完成新一轮融资,资方主要为数家大模型公司,包括智谱、阶跃星辰、商汤科技、阿里。此外,华勤、上汽恒旭等产业投资方持续加注。 “智美科技”完成近2亿元战略轮融资 36氪获悉,“智美科技”宣布完成近2亿元战略轮融资,本轮融资由麦澜德、国石智达资本、老股东共同投资。本轮资金将主要用于深化“皮肤全球大模型”的研发及3D皮肤智能设备的迭代升级,加速与全球产业链伙伴的商业化落地合作,构建皮肤AI智能设备生态体系。 酷产品 小米机器人团队在CVPR与ICRA两大国际顶会赛事获双料冠军 36氪获悉,6月5日,小米技术宣布,小米机器人团队在CVPR 2026 Workshops和ICRA 2026 WBC斩获双料冠军。据介绍,在CVPR 2026 Workshops中,小米匿名参赛模型“my16”以40.89%的成功率位居榜首,是该赛道中唯一突破40%门槛的模型;在ICRA 2026 WBC中,小米机器人在超市场景下完成16类饮料的货架抓取与购物车放置任务,综合得分99.2分,整体成功率94%,是榜单中唯一超过90%的方案,较第二名高出10个百分点。 纳米递送载体将肺癌药利用度提高30倍 澳大利亚阿德莱德大学科学家研制出一种新型纳米颗粒递送载体,能将肺癌药物精准靶向肺部,让药物的生物利用度(即所服用药物的剂量能到达体循环的比例)提高30倍,同时大幅减少对健康器官的干扰与损伤。这项突破有望重塑肺癌乃至多种癌症的治疗面貌。(科技日报) 曝iPhone 18 Pro首发第二代灵动岛,整体宽度直接缩减了35% 据博主爆料,今年下半年登场的iPhone 18 Pro系列将首发苹果第二代灵动岛,正面挖孔的宽度由上代的20.76mm调整到13.49mm,整体宽度直接缩减了35%,这也让iPhone 18 Pro成为苹果有史以来屏占比最高的智能手机。 这次能把开孔做小,核心原因是苹果把部分Face ID的核心组件直接隐藏到了屏幕下方,最终成功压缩了正面的开孔面积。这样的改动不仅显著提升了整机的屏占比,也让手机正面的整体视觉感官变得更加精致完整。(快科技) 整理 |开心