给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源
新智元报道编辑:LRST【新智元导读】视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。在日常生活中,你是否遇到过这样的
4小时前00
新智元报道编辑:LRST【新智元导读】视觉+语音=更强的语音识别!BPO-AVASR通过优化音视频输入和输出偏好,提升语音识别在真实场景中的准确性,解决了传统方法在噪声、口语化和视觉信息利用不足的问题。在日常生活中,你是否遇到过这样的