玩具量化交易系统思考

玩具量化交易系统思考
玩具量化交易系统思考

最近没什么事情,想着去做一个小玩具,正好本人对机器学习方面比较感兴趣,所以想着做一个机器学习的量化小玩具来玩玩(不想着拿着他去赚钱感觉不太可能(我能做量化机构早就做出来了(除非这个策略是低资金才能玩量化玩不了的)))

那么既然是机器学习的小玩具,那么机器学习最重要的是什么呢?就是模型结构啊!(错了数据最重要啊)所以就去闲鱼和淘宝上淘了一点1分钟的数据,来准备训练一个模型去做一下这个实验

那么第一件事情就是说我们要去针对什么股票去思考和预测,由于没什么钱开不起创业板和科创板所以只能玩玩主板了,那么接下来就是把主板的股票给筛选出来大概3800只,那么从2000年到2026年这27年的数据不可能通通加进去,因为要考虑到A股这个玩意儿不同周期的影响是非常大的(2019有科创板,2023年8月印花税调整,2024年量化监管(DMA 收缩、高频报撤单限制))最后还是选择了2018-2026年的数据来训练这个模型

既然数据有了,那么第二个问题就是我们要预测什么?因为一开始听学长说A股有一个操作叫做打版,这个操作非常赚钱,所以说一开始我我就想着往打版的方向去设计这个模型,但是效果并不是那么好,后面会说明。所以说走了第二个方法预测一只股票在达到最大回收之前会不会涨个问题(还在做目前)

然后就是模型结构问题了,一开始考虑的是多因子+lstm结构的但是过拟合严重(暂时打消了后面我想要fashion一点使用rwkv,trans,delta,mamba的想法)最后使用了light gbm的模型结构(听ai的话了:( )

最后是数据集分割问题了,一开始没动脑子考虑的就是18-25 training set,25来validation set,26来testing set没有考虑到A股随着时间变化的特点,后面在AI的建议下使用了PTSS和CPCV(最后CPCV效果好一点)
PS:这里提醒一下大家一定要做数据的Embargo(就是在训练集和测试集之间留出一段空白期)
PS: 要有纪律的使用validation set和testing set,testing set是有保质期的!使用多了之后你的模型就会在你的testing set上被你人工过拟合,你饿的testing set的结果就毫无意义了!

关于vibecoding的使用需要提醒一下这里感觉无论是claude-opus-4.6-max还是gpt-5.5都会引入未来函数(在预测day T的时候有day T+1的数据混进去了)建议开一个上下文空的codex来做独立的审查

还有很多东西要写先写个todo吧
1.CPCV 按等长时间块切分,这在 A股是浪费,一个块可能横跨牛熊切换需要解决
2.考虑一些深度学习模型结构的使用
3.light gbm无法原生感知时间的问题

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文