来自文件的窗口语音识别 (SAPI) 的质量
Quality of windows speech recognition (SAPI) from file
我正在尝试对音频流输入(通过UDP)执行语音识别。我正在使用Microsoft语音识别 (SAPI)。当我使用麦克风测试语音识别时,我获得了良好的质量(在 C# 和 C++ 中)。但是,一旦此信息来自WAV文件(或来自我的UDP流的内存缓冲区),识别率就会急剧下降。我尝试以 44100Hz 的大胆保存文件,并且还用 C# 编写了自己的代码来编写 WAV 文件。当然,我使用完全相同的麦克风,文件中的声音听起来不错。
SAPI 是否可以使用不同的模型进行麦克风输入和文件输入?有没有人遇到过这个问题(并且有任何解决方案)?
下面是我的 C# 代码(尽管我在 C++ 中遇到了完全相同的问题)。
SpeechRecognitionEngine recognizer = new SpeechRecognitionEngine();
Grammar dictationGrammar = new DictationGrammar();
recognizer.LoadGrammar(dictationGrammar);
recognizer.SetInputToWaveFile("c:pathtofile.wav");
RecognitionResult result = recognizer.Recognize();
text1.Text = result.Text;
不知道为什么,但它对我将文件的振幅降低了 10 倍有很大帮助(使用代码来自使用 C 减小 Wav 音频文件的音量)。
也许,当SAPI收听麦克风时,它使用减小的音量,因此在加载wav文件时也需要模拟它。
- 谷歌语音识别不起作用,因为冲突线程Qt C++
- 如何使用口袋狮身人面像通过代码中的麦克风进行语音识别
- ROS语音识别
- 是否可以使用 SAPI 忽略Microsoft文本到语音转换中的单词
- 谷歌语音识别(cpp示例):对AssignDescriptors()的未定义引用
- 针对有限数量的命令的快速语音识别
- 使用 HMM 或 MFCC 进行语音识别
- 语音识别 - 线性预测编码
- 文本到语音 SAPI 语音
- 在 C++ 中使用 CreateProcess() 启动语音识别
- 来自文件的窗口语音识别 (SAPI) 的质量
- 识别2个以上属性的SAPI
- SAPI如何识别多个属性
- 使用Hopfield神经网络读取WAV文件的数据部分以进行语音识别
- SAPI获取不同的语言识别器
- 在SAPI 5.3中禁用主语音识别
- c++语音识别API
- 已知有限字典的语音识别库
- 语音识别SDK/API和Windows 8商店应用程序(c++)
- 语音识别小词汇量(约20个单词)