最近一直开会做其他项目,非常忙,现在抽吃饭时间敲一下。老实说纠结了很久,要不要写这篇文章,害怕大家听不明白,思考了两天,终于知道该怎么给大家讲这个项目,本来想叫问数机器人,想了一下不合适,于是让AI想了一下名字,于是就出来了 智能数据管家Agent 事先说明,这个Agent真的非常难,非常难,涉及非常多的细节,对技术也有一定的要求,并且目前来看不能商用,找我咨询的那家公司,也只是内部数据岗人员小部分使用,我只能是尽我所能的用大白话告诉大家一些参考的方向,并且咋说呢,各家公司有各家公司的情况,主要就是分享一下思路,告诉各位佬友,原来还能这样! 我们先代入一个业务视角,站在业务的角度,假设现在要做一个问数机器人,也就是用自然语言出查询数据的机器人,比如你跟AI说查一下昨天的退款后GMV是多少,查一下某天的库存,AI就会相对的快速给你答案,但是事实上这用BI数据看板拖拉拽也能实现,只是提高了一点效率。业务本身更想要的是啥,我某个指标发生了异常,是什么时候发生的,导致这一情况出现的原因是啥,并且AI有没有什么建议能够给到我。就类似于说昨天的退款后GMV突然下滑了一百万,AI会自动推送给我,昨天某个产品由于价格上涨的问题,导致GMV下滑,AI建议上调价格这样。 这个Agent具体实现的功能如下 1.数据驾驶舱,能够将公司核心的指标都呈现,一眼就能知道当前公司的经营状况是怎么样的,比如会放当前的库存,当前卖了多少,目标完成度是多少 2.问数机器人,自然语言输入后AI输出数据或者Excel表格 3.数据预警,当某个指标发生重大变化是,直接查找原因,并推送到个人或群聊,并给出相对建议 来看下我是怎么去指导开发做的吧 这一切的前提在于指标体系是否完善,并不一定要求是全公司的,哪怕是某一个部门或者某个小子公司或者某个中心,都可以,这套方向指向性非常强,一定要结合业务场景去做,指标体系背后的话是必须得有数仓,主数据系统这样的系统去支撑,之前我是从0-1跟进了公司的数仓和主数据系统的搭建和开发,有一定的数据治理经验,所以我比较了解一点。 第一条蛮简单,就是把核心的指标梳理出来,比如库存货值,目标完成度,老板关心的指标都丢进去就好了,可以的话加上一个时间筛选器,BI也可以实现 第二条开始就难咯,问数机器人和数据预警,会有两个大难关,首当其冲就是数据安全问题,如果要把数据库直接丢给AI,是否安全,我们采取的方式是不管你用Codex还是用qoder或者是trae,采购企业版,签订安全协议,保证你的数据不外泄就好了。大部分公司都是这样的,没有绝对性的安全,如果一定要绝对性的安全,那市场上AI算法岗,还玩个毛线。接下来是AI会瞎编数据,懂得都懂啊,那也就是如何解决AI幻觉的问题,首先我们的做法(公司已有数仓),我们在数仓里针对销售,做一个销售大宽表,再做一个库存大宽表,一般公司这两个其实都够用了,其他要加也是一样的道理,并且把维度表跟指标清单一起,全部给AI,做好配置,数据准备好之后,再写通用性的大SQL,如果懂数据的应该能理解什么意思,就是不让AI直接写SQL,只让AI去以传参的形式,业务人员问什么指标,AI就传入什么指标,然后去执行取数操作,从数据源阶段就控制死,AI只能执行聚合汇总的操作。其次AI每次的回答要求,输出的数据必须带上查询了哪个表,哪个字段,什么时间段,过滤条件是什么,这样输出,基本上就没啥问题了,而且这个是给数据岗使用,即使有问题他们也看得出来,前期也会大量的去测试校验数据。再解决完这两个大头问题之后,就是如何把自然语言转化为数据语言,那做法大差不差了,就是做一个语义库,把自然语言翻译为数据语言,这个不用多说,感觉大家都理解逻辑。所以现在就很清晰了,我单独摘出来。 AI接收指令 结合语义库翻译为专业数据提示词 提取确认需要的维度和指标 传参执行SQL AI汇总分析等 输出数据与结论 第三步是最后一步了,如何人AI去做到数据预警并输出具体的结论,这里就不得不提到一个概念了,指标拆解,这个动作只能是业务部门自行去拆解,当时我是协调了业务部负责人一起干的。 什么叫指标拆解,我这里利用运营的思路大概说一下 退款后GMV=流量(访客数)*转化率(人群)*客单价*退款率,假设现在退款后GMV下滑严重,就要去找对应拆解出的几个数据,假设现在流量,转化率都没问题,就要考虑客单价是不是过高,是不是被竞品给狙击了;假设现在客单价,访客数也没问题的情况下,消费者仍然不买账,就要看下投流手投的流量是不是不符合公司人群,投错了。如果前几者都没问题的情况下,那就要考虑是不是退款率过高,产品本身出了问题。 大概是上面这个思路,最终AI输出的结论,一定是有迹可循的,结合公司的场景定制化输出,不让AI自己瞎编。 现在所有的东西做好了,可以理解为就是数据监控+预警+对话都可以实现的一个Agent,适用于数据分析。 我上面讲的内容是比较通用可以参考的,具体问题具体分析,还是要结合业务场景。并且这个本身就是给数据分析用,辅助,需要不断优化完善,并且如果AI出错,人工还是可以干预和介入。做这个的主要目的还是为了后续的销售预测和库存共享等算法做铺垫。这个Agent目前在公司内稳定也一段时间,后面我没再关注,如果一定要说价值吧。那我就简单的说一说。 改变了过去的一个工作方式,过去是人去被动找数据,找问题,现在讲工作流程扭转,变为数据找人,以及问题找人。改变了传统的一个工作方式吧,变成是交互式的,AI给结论,人来不断调试。我相信这样持续长久的运行下去,对整个业务部门来说,价值是非常大的,而我也坚信,市面上每一家规模起来的公司,一定会做这个,大家可以自行研究研究。并且传统的数据分析,数据开发的工作岗位,一定会在AI的冲击下做出改变。就比如说过去数据分析里常常说做一个归因分析,AI出现后,就变了,就变成是AI告诉你原因,你要去想办法去沟通去协调去解决,无法适应这个工作方式的同学,可能还会被替代优化。我并不想制造焦虑,只是说实话,那一天不远了。希望大家还是有点心理准备。 谢谢大家,这个是我的思路,目前我们还是持续在优化中。另外我有做过数仓跟主数据系统,有一定的数据治理经验,如果确实有必要想了解这方面的业务,我可以单独出几期来讲讲企业怎么做主数据治理,怎么做数仓,指标清单怎么收集这些。 最后给一张图,AI生成的,Agent工作流,希望能给到大家一点灵感,最后叠个甲,觉得不对的,当看个乐子,吃饭去了,晚上还要开会,谢谢大家,祝各位佬友生活愉快。 2 个帖子 - 2 位参与者 阅读完整话题
大家的vscode中,做数据分析调试时,查看dataFrame对象,ndarray对象用啥插件呢,找了半天没找到,自己开发了一个 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 6 月 8 日消息,美国大数据分析与人工智能软件公司 Palantir 首席执行官亚历克斯・卡普并不认同当下盛行的“词元刷满(tokenmaxxing)”风潮。卡普向来直言不讳,他将人们无节制滥用人工智能的心态比作沉迷色情内容。 在 Palantir 人工智能平台十周年大会的场外,卡普接受 TBPN 直播采访、谈及公司对词元用量的管控时表示:“我们内部私下会把这种行为称作‘精神沉溺式滥用’,说白了就和自慰成瘾一样。不得不说,有些人整天沉溺其中,俨然染上了类似色情成瘾的毛病。” IT之家注意到,卡普的观点,与公司首席技术官沙亚姆・桑卡上月在财报电话会议上对分析师的表态不谋而合。这家数据分析与科技企业一直将自身定位为“拒绝粗制滥造的阵地”。桑卡认为,企业必须明白:单纯依靠低成本人工智能无法创造更多价值,除非拥有像 Palantir 人工智能平台(AIP)这类能为 AI 模型筑牢落地根基的系统。 桑卡称:“词元用量越多,产出内容就越粗劣。当企业愈发依赖这种大众化的智能能力时,就越需要一套体系来规避经济损失,进而真正挖掘出商业价值。” 词元是大语言模型的基础单元,模型会将词汇拆解为数字单元,一个词元大约对应四分之三个单词。各大 AI 企业与模型服务商,通常按照词元消耗量和所用模型来计费。 近几周,硅谷及科技圈不少人开始强烈反对“词元刷满(tokenmaxxing)”的风气。此前,随着智能体技术不断迭代、能力持续提升,行业一度盛行无节制使用 AI 的做法。 优步首席运营官安德鲁・麦克唐纳也道出了业内的顾虑。他表示,这家网约车企业始终无法看出,不断攀升的 AI 成本和提升效率等实际收益之间存在关联。谈及麦克唐纳的言论,卡普称,就在不久前,公开质疑 AI 还被视作不明智的举动。 卡普回忆初次接触行业舆论时说道:“最开始,大家只是觉得 AI 或许具备真正价值。直到大约两周前,业内人才猛然惊醒:AI 的确是实打实的新技术,可实际应用却收效甚微。但没人敢公开说出这点,生怕被人当成外行。” 卡普认为,如今所有人都承认 AI 技术真实可行,但围绕这项技术产生的诸多问题 —— 包括竞争对手试图打造对标 Palantir 本体知识库的产品等,归根结底都取决于行业认知与专业判断力。 他表示:“AI 相关技术可以规模化落地,也能创造可观价值,但最终大多会沦为同质化的通用工具。可如何精准定位企业亟待解决的业务难题,这种判断力是无法被规模化复制的。” 卡普坦言,AI 模型确实能出色解决一部分问题。他举例道,比如输入指令“撰写一份国内生产总值增长报告”,这类任务 AI 就能轻松完成。 但面对更为复杂的难题,仅靠 AI 本身远远不够。 “比如这类需求:‘我要优化油气开采的专属工艺,既要合法合规、恪守道德准则,还要降低生产成本。我想重塑所在行业的供应链,无论领域是军工、包装制造还是汽车产业。’”卡普解释道,“这类工作需要一套严谨、精准且持续运转的业务流程。大语言模型可以为其赋能,但绝无法取而代之。”
各位佬们大家好,开门见山求教一个AI自动化提效的问题。 【我的情况】 我目前主要负责零售药店行业的私域运营。以前做过产品经理,写过代码,平时自己也会折腾一些大模型 API 做一些自动化的工具,对 AI 算是有些入门。 【目前的痛点】 最近一直在用 AI 做数据分析(主要是提供运营复盘和方向指导),AI 的分析能力确实帮我提效了很多。 但现在的痛点是 前置的“人肉操作”太折磨人了 : 每次分析前,我都需要手动登录后台系统,挨个导出近 10 份不同维度的 Excel 报表,然后再自己清洗、整理到不同 Sheet 页里,最后才能传给 AI 分析,自动化断在了最前面的数据获取环节。 【期望实现的效果】 我想要实现全链路自动化。理想状态是: 自动获取: 我把后台登录地址、账号密码(或 Cookie)以及取数规则喂给 AI,它能自动操作浏览器完成登录、筛选并导出这 10 份数据。 自动分析: 导出的数据自动完成清洗合并,然后无缝衔接大模型的分析流。 结果直出: 最终直接给我输出想要的分析报告。 【想请教大家】 针对这种“Web 自动化下载 + 数据清洗整理 + LLM 协同分析”的场景,目前最直接、最高效的解法是什么? 是用影刀这类成熟的 RPA 工具去串联大模型 API 跑? 还是直接上类似 Browser-use这种开源的 Web Agent 框架自己搭脚本?,但是我感觉Windows环境对于自动操作来说很麻烦。 或者各位在业务中有没有跑通的其他最佳实践? 希望有过类似实操经验的佬们指点一二! 6 个帖子 - 5 位参与者 阅读完整话题
其一篇: 一个号活一周:我做 AI 中转的半个月【原文为ai整理录音稿,现截图重发】 搞七捻三 原文为ai整理录音稿,现截图重发,实际上只有结语是aigc,其余全部为口述后整理。 更友好的查看请见我的博客或推特:DXH430725(如果不能发烦请删除此句,或提醒我修改) [image] [image] [image] [image] [image] [image] [image] [image] [image] [image] [image] 半个月做中转的全部记录。 270 个号经手,¥1,124 成本,¥1,319 结算,¥194 净利润。 那些号实际的 token 消耗值是 $24,445 USD ≈ ¥176,007 RMB 。 我做了 17 万人民币的服务,到手 1300。再扣掉成本,净收入 194。 缩水 906 倍。这就是 0.07 倍率的真实写照。 5/26 大客户上线那天,单日补了 77 个号。号池中位寿命从 80h 一路衰减到 27h。 整个号池中位寿命 36.8 小时——超过一半的号活不过两天。最短的一个,2.6 小时就死了。 号池能撑下来,主要靠我的朋友——XC 他一个人贡献了 126 个号(占总数 47%),平均存活 57.4 小时,是 echo_dream、x75cpl 的两倍以上。产出值也稳在均值之上。 散点图里,金色的点几乎不出现在亏损区。 这就是那半个月。 不闲,也没钱。 2 个帖子 - 2 位参与者 阅读完整话题
豆包计划推出专业版,面向软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等生产力需求。目前专业版仍在测试,正式上线信息将通过官方渠道发布。 搜索问答、写作生图、语音和视频对话等日常功能将保持免费,专业版也会有一定免费额度。豆包否认会通过降低基础功能体验来推动用户购买会员。 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 6 月 2 日消息,数据分析显示,2020 财年至 2024 财年间,PlayStation 第一方游戏销量锐减 3000 万份。销量在 2020 年前后攀上顶峰,该平台单年第一方游戏销量高达 5840 万份。 受新游上线阵容单薄、《Concord》等多款作品销量严重不及预期拖累,2024 财年这一数据大幅缩水,跌至约 2900 万份。部分销量落差不难解释,而就在本期内容撰稿当日晚些时候,PlayStation 新一期发布会即将举办, 游戏资讯网站 Game File 发布了一份调研,整理了近六年索尼财务数据并制成明细图表,直观展现了近期 PlayStation 第一方游戏的市场表现。 核心销量数据一览: 2018 财年:5410 万份 2019 财年:4920 万份 2020 财年:5840 万份 2021 财年:4390 万份 2022 财年:4350 万份 2023 财年:3970 万份 2024 财年:2890 万份 2025 财年:3210 万份 2020 财年销量创下峰值,得益于多款爆款作品问世,恰逢 PS5 主机正式发售;同期上线《最后生还者 2》《蜘蛛侠:迈尔斯 · 莫拉莱斯》《对马岛之魂》等多款热销大作,全线销量火爆。除此之外,当年正值新冠疫情全球大范围居家封控,玩家被迫居家,拥有充足空闲时间游玩游戏,也助推了销量走高。 《最后生还者 2》后续还推出了复刻版本,长期持续贡献销量。 在这波销量红利过后,平台销量走势整体保持平稳,直至 2024 年行情急转直下。 2020 财年到 2024 财年,PlayStation 第一方游戏销量近乎腰斩,得益于《羊蹄山之魂》《死亡搁浅 2》发售,去年销量才小幅回暖。 不少业内观点认为,索尼近些年大肆收购游戏工作室、全力布局长线服务型游戏的战略投入得不偿失,这项布局基本全盘失利,保守预估已让公司蒙受数亿美元、甚至十亿美元级别的巨额亏损。 2022 年索尼斥资约 37 亿美元(IT之家注:现汇率约合 250.89 亿元人民币)收购 Bungie 工作室一事,便是该争议的典型案例。索尼最新财报于 5 月披露,这笔收购已产生约 7.65 亿美元(现汇率约合 51.87 亿元人民币)资产减值损失,且随着 Bungie 经营持续走弱,亏损数额仍在进一步扩大。 Bungie 上月官宣,《命运 2》将于 6 月 9 日推送最终版本更新,此后工作室将停止该作内容迭代,转而主攻生存撤离射击新作《失落星船:马拉松》,同时孵化多个在研新项目。
如题,我做的纯物理数据分析,搞不懂openai这个cyber abuse是怎么判定的 道德楷模都闷头就干的事儿,你一个外审凑什么热闹 1 个帖子 - 1 位参与者 阅读完整话题
想问大家数据分析要从什么方向开始学起来的,大佬们有什么推荐的课程吗 7 个帖子 - 4 位参与者 阅读完整话题
得益于上一家公司锻炼了我用python批量处理数据的能力,我现在在一家公司做数据分析; 其实大多时候我并不会分析,硬让我分析,我就把表丢给豆包,分析结果还不赖… 说重点吧,我现在的工作模式,就是在批量处理数据,本人是计算机小白,大学学的是化学,以前不得不硬着头皮边百度边学着写代码去做数据处理,现在有了AI,我就全丢给AI,结果就是…非常好用!!,我出数据结果的效率非常高,同事都佩服我…其实我自己知道,我现在啥也不会了,离开AI,我都快不会用透视表去弄数据了; 有时候为了重复利用方便,我用AI生成相关的自动化代码;为了呈现方便,我用AI生成对应的网页版可视化展示或者图片类型,甚至有时间写一些爬虫脚本爬后台数据(非前端页面),领导和同事都觉得我好厉害,其实我自己又知道了,我好像啥也不会…,所以我是工作中的 <假大神> ,我应该会很容易被替代吧?有点焦虑,但是转念想,如果其他人不会用AI,手动去统计数据,这么大数据量,需要好几个人才能完成我一个人生产的结果。 所以,我想跟佬友们交流两个事情: 1.我这水平,到底是个啥…经常焦虑,但是用AI做出东西又会沾沾自喜,一句话总结,没有AI,我的能力会直接变为原来10分之一。 2. 学AI,上L站! 13 个帖子 - 9 位参与者 阅读完整话题
需要基于各行业的招聘信息,做AI数据分析。 数据集有没有获取的地方,BOSS之类的数据怎么拿。能半年更新一次就行(公司要做的商业项目,得找合规的途径,爬虫可能不太行) https://www.bright.cn/之类的怎么样,大家有推荐的方式吗。 3 个帖子 - 3 位参与者 阅读完整话题
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。
电商背景,做数据分析 admin 后台,内部用,当前某个单系统,技术选型如下 后端 :Python + FastAPI 前端 :React + TypeScript + ant design + tailwindcss 数据库 :PostgreSQL + ORM 仪表盘 :AntV 分析工具 :使用 Pandas 等数据分析库进行数据处理和分析。 各位大佬有什么建议么 前端用 React 是考虑 React 的生态比 Vue 强;用 ant design 是因为有相同背景的 AntV ,免费的。而 HeroUI 配套的 HeroUI Pro 还挺贵。