Add MOSS-TTS-Realtime fastapi, RTF and TTFB#76
Conversation
|
@Zhyw0 感谢大佬的回复,但是为什么生成音频文件out_streaming_split.wav是0字节,不能播放 这是客户端请求日志; |
|
这个应该是本地生成wav文件后无法实时播放,需要等全部音频生成完之后才能播放,如果想要实时播放的话建议使用app.py这个启动,这个代码我们也重新优化过生成速度 |
|
在首页 中英README上也更新一下吧 |
|
@Zhyw0 大佬好,我机器配置A800,8张80G显存,如下所示 我想实现文本流式输入和语音流式输出,采用websocket通信,客户端tts_stream_client.py和服务器脚本tts_stream_server.py如下 |
|
哦不能用flash-attn2,建议用sdpa,用sdpa是支持compile的,flash-attn2现在和torch.compile是冲突的,sdpa+compile这个速度会更快,感谢提醒,我们会在readme 中说明 |
|
卸载了flash-attn2,速度果然提升了,测试了好几次,每次都是开始2,3秒RFT>1,后面稳定在0.8左右,基本可用,感谢大佬 |
|
感谢反馈,但是在a800上感觉速度还是不应该这么慢,我们后续会再进行测试和优化 |
|
INFO: connection open 还发现:第1次请求的第2秒很慢,如上 另外,还测试了MOSS-TTS-Realtime好像不支持方言,并且没有加速参数speed参数,像Cosyvoice那样speed=1.0控制生成速度? |
|
MOSS-TTS-Realtime暂时还不支持方言和控制生成速度 |
Uh oh!
There was an error while loading. Please reload this page.