这几天真切的感觉到,用不同的接口类型调同一个模型,首token延迟差别很大

这几天真切的感觉到,用不同的接口类型调同一个模型,首token延迟差别很大
这几天真切的感觉到,用不同的接口类型调同一个模型,首token延迟差别很大

/v1/chat/completions、/v1/messages、/v1/responses,/v1/responses是最久的,但的确也是最新技术,最好用的。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文