我最早是一个沉迷 SillyTavern 用户,第一次接触酒馆的时候还是挺震撼的,角色卡、世界书、预设、插件,整个生态丰富得离谱。后来很多角色扮演产品做来做去,本质上也都在围绕酒馆生态转。但用久了之后也会发现一些问题:酒馆真的太重了!!!
各种配置项、各种参数、各种插件,对于重度玩家来说可能很爽,但对于普通用户来说门槛其实不低。很多时候只是想找个角色聊聊天,结果要先研究一堆概念,最后花在折腾环境上的时间可能比聊天还长。
所以去年我自己做了一个项目,当时想法挺简单的:保留酒馆生态最有价值的部分,把体验尽量做简单一点。后来项目也获得了论坛内大量佬友的支持,拿到了 800 star,但新的问题很快又出现了。因为兼容酒馆,所以必须持续兼容酒馆。角色卡要兼容,世界书要兼容,各种数据格式要兼容,很多时候设计一个功能,第一个考虑的问题甚至不是用户体验,而是会不会破坏兼容性。明明是在开发自己的项目,但越来越像是在维护一个酒馆兼容层。
与此同时我也开始思考另外一个问题。
酒馆解决得很好的是角色扮演,但它真的是 AI 陪伴产品最终的形态吗?大部分时候我们面对的仍然是一个聊天窗口。输入一句,回复一句。哪怕加上语音,本质上还是聊天软件的逻辑。
但现在模型能力已经和一两年前完全不一样了。
语音模型越来越成熟,实时对话越来越自然,Agent 也开始具备一定执行能力。如果从今天重新设计一个陪伴产品,我越来越觉得核心可能不应该是聊天框,而应该是角色本身。
她有声音,她可以实时交流,甚至可以在聊天过程中顺手帮你完成一些事情,同时如果希望回归酒馆的聊天模式,也可以做到无缝支持。
基于这个想法,我上周把内部的一个实验项目整理出来开源了:
https://linux.do/t/topic/2314323?u=happyfox001
原本只是想验证一下方向,结果一天时间拿到了 60 个 Star,也收到不少私信反馈。目前它其实还非常早期,严格来说只能算一个骨架,实现的主要还是完整语音交流能力。但从反馈来看,大家关注的已经不只是模型效果,而是另一种交互方式本身。我愈发的想继续将更多内容开源出来,去围绕一些当前在二创中火爆的角色+声音,构建文字聊天+语音实时交互的桌面陪伴产品。想听听佬友们的意见。
1 个帖子 - 1 位参与者