最近没什么事情,想着去做一个小玩具,正好本人对机器学习方面比较感兴趣,所以想着做一个机器学习的量化小玩具来玩玩(不想着拿着他去赚钱感觉不太可能(我能做量化机构早就做出来了(除非这个策略是低资金才能玩量化玩不了的))) 那么既然是机器学习的小玩具,那么机器学习最重要的是什么呢?就是模型结构啊!(错了数据最重要啊)所以就去闲鱼和淘宝上淘了一点1分钟的数据,来准备训练一个模型去做一下这个实验 那么第一件事情就是说我们要去针对什么股票去思考和预测,由于没什么钱开不起创业板和科创板所以只能玩玩主板了,那么接下来就是把主板的股票给筛选出来大概3800只,那么从2000年到2026年这27年的数据不可能通通加进去,因为要考虑到A股这个玩意儿不同周期的影响是非常大的(2019有科创板,2023年8月印花税调整,2024年量化监管(DMA 收缩、高频报撤单限制))最后还是选择了2018-2026年的数据来训练这个模型 既然数据有了,那么第二个问题就是我们要预测什么?因为一开始听学长说A股有一个操作叫做打版,这个操作非常赚钱,所以说一开始我我就想着往打版的方向去设计这个模型,但是效果并不是那么好,后面会说明。所以说走了第二个方法预测一只股票在达到最大回收之前会不会涨个问题(还在做目前) 然后就是模型结构问题了,一开始考虑的是多因子+lstm结构的但是过拟合严重(暂时打消了后面我想要fashion一点使用rwkv,trans,delta,mamba的想法)最后使用了light gbm的模型结构(听ai的话了:( ) 最后是数据集分割问题了,一开始没动脑子考虑的就是18-25 training set,25来validation set,26来testing set没有考虑到A股随着时间变化的特点,后面在AI的建议下使用了PTSS和CPCV(最后CPCV效果好一点) PS:这里提醒一下大家一定要做数据的Embargo(就是在训练集和测试集之间留出一段空白期) PS: 要有纪律的使用validation set和testing set,testing set是有保质期的!使用多了之后你的模型就会在你的testing set上被你人工过拟合,你饿的testing set的结果就毫无意义了! 关于vibecoding的使用需要提醒一下这里感觉无论是claude-opus-4.6-max还是gpt-5.5都会引入未来函数(在预测day T的时候有day T+1的数据混进去了)建议开一个上下文空的codex来做独立的审查 还有很多东西要写先写个todo吧 1.CPCV 按等长时间块切分,这在 A股是浪费,一个块可能横跨牛熊切换需要解决 2.考虑一些深度学习模型结构的使用 3.light gbm无法原生感知时间的问题 … 1 个帖子 - 1 位参与者 阅读完整话题
grok 能生成那种看起来很真实 但又那种擦个边 比较猛一点的那种擦边 类似下面的举例 好奇提示词怎么破?看了站内不少关于grok的帖子,但自己去试了,发现效果好假啊,根本达不到下面这种效果 是因为提示词的问题?还是本身模型的问题 不过用的是grok免费版 6 个帖子 - 4 位参与者 阅读完整话题
这个月2个plus不够用,想着搞个pro5x试试。 推荐去哪买?直接美区吗?还是说搞个礼品卡啥的 3 个帖子 - 2 位参与者 阅读完整话题
想用来写周报啊一些东西的,Github上搜了一下似乎都是偏科研的比较多。 感觉生成出来的句子还是很僵硬啊 3 个帖子 - 2 位参与者 阅读完整话题
看到近期比较成熟的方案是这个 image2 直出答辩/学术PPT 焚诀 | Prompt is all you need - 开发调优 / 开发调优, Lv2 - LINUX DO 但是这个本质上是不可编辑的。 那短视频平台上展示的那种可编辑的,本质上 是拿codex客户端以“点击交互”的形式,用ppt自己的图像元素搓出来的?有佬能指引一下教程帖吗 2 个帖子 - 2 位参与者 阅读完整话题
疯狂刷新,疯狂换梯子,疯狂502,522,今天看样子比较疯狂呀 1 个帖子 - 1 位参与者 阅读完整话题
ChatGPT 土耳其区现在涨价了,我记得之前看到过站里有人发过价格比较地址,有人有吗?
code plan又抢不上,国产别的模型编码能力比较强的还有什么? 3 个帖子 - 3 位参与者 阅读完整话题
之前用土区是直接apple账户注册的,想先注册个新号养着等涨价了直接转美区pro了。 要想稳定的话怎么注册比较好,没有美国手机号,接不了码,希望能不接码就用。之前apple账号是没跳过接码的。 1 个帖子 - 1 位参与者 阅读完整话题
虽然用 claude code / gpt / codex 用它辅助生成代码也有一年半载的时间了,感受到人工智能编程带来的效率的提升,但是真正项目种对接人工智能场景其实还是不太多,我感觉到,如果各行各业要融入到人工智能带去的便捷,我认为市场上最需要的其实是能够对接人工智能到项目中,让项目借助人工智能而带给具体使用者便利性的开发者。 前些时间在招聘平台上招聘者问我会 agent 开发么? 我愣了一下,agent 开发 最近看了下,agent 开发实际上就是 把工具指令 参数入口描述好,然后用人工智能调用这个指令 那么是不是 agent 开发这种需求比较多呢?
我要给我自己的账号购买网页版 ChatGPT Plus,但是想要通过自建中转给团队共享 目前团队是 GLM Coding Plan 的 Lite 就已经够用 目前在站内有看到过 sub2api, CPA, NewAPI,目前是想要给 5-6 人使用,选什么工具比较好呢? 或者除了上述工具之外,还有一些我没发现但是佬友用过觉得好的工具,也欢迎佬友补充! 如果设置每日额度的话,每人每日的额度要设置多少才能让 OpenAI 的风控最小化?因为这个账号也确实是我一直以来在自用的账号, 终究是有点感情不希望被ban 18 个帖子 - 10 位参与者 阅读完整话题
买了半个月就死掉了。气煞我也。求个稳的办法。奥特曼还不给退钱 3 个帖子 - 3 位参与者 阅读完整话题
我想监听比如马斯克的 X ( Twitter )账号,一旦他发新帖子我就能收到提醒,有没有什么比较稳定的然后也比较便宜的方案?尝试了用自己电脑的浏览器频繁刷新主页,过一会感觉就被风控了刷不出来帖子了(如果是自己账号去爬虫的话估计也会这样?)。如果是用 Apify 那种爬虫的话频率很高次数很多就很贵了(还有一个问题是付费的帖子看不到)。请教各位大佬有没有什么好方案!
之前每次有新模型出来,首页满屏都是各种性能测试和比较,这次Fable 5感觉提升挺大的啊,怎么好像反而没什么水花? 2 个帖子 - 2 位参与者 阅读完整话题
我想监听比如马斯克的 X ( Twitter )账号,一旦他发新帖子我就能收到提醒,有没有什么比较稳定的然后也比较便宜的方案?尝试了用自己电脑的浏览器频繁刷新主页,过一会感觉就被风控了刷不出来帖子了(如果是自己账号去爬虫的话估计也会这样?)。如果是用 Apify 那种爬虫的话频率很高次数很多就很贵了(还有一个问题是付费的帖子看不到)。请教各位大佬有没有什么好方案!
up:粘土工厂 我还是比较震撼的,真的是从 0 造出了一个小 IP ,虽然没有那么知名 美术剧情音效都挺吸引人的,没有 AI 的廉价感 只要调教得当,是不是人人都好造 IP 了,问一下大家的看法