现在有什么开源的语音识别吗

/ Java / 没有评论 / 3979浏览

现在有什么开源的语音识别吗?

ASRT语音识别项目

这是一个基于中文的语音识别开源项目,GitHub地址为:https://github.com/nl8590687/ASRT_SpeechRecognition

项目主页:https://asrt.ailemon.me.

ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

ASRT语音识别系统的声学模型采用了深度全卷积神经网络,直接将语谱图作为输入。模型结构上,借鉴了图像识别中效果最好的网络配置VGG,这种网络模型有着很强的表达能力,可以看到非常长的历史和未来信息,相比RNN在鲁棒性上更出色。在输出端,这种模型可以和CTC方案可以完美结合,以实现整个模型的端到端训练,将声音波形信号直接转录为中文普通话拼音序列。在语言模型上,通过最大熵隐含马尔可夫模型,将拼音序列转换为中文文本。并且,为了通过网络提供服务给所有的用户,本项目还使用了Python的HTTP协议基础服务器包,提供基于网络HTTP协议的语音识别API,客户端软件通过网络,调用该API实现语音识别功能。

系统的流程

特征提取

将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。 1

声学模型

基于Keras和TensorFlow框架,使用这种参考了VGG的深层的卷积神经网络作为网络模型,并训练。 img

CTC解码 在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。 3

语言模型 使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。

其原理请看:

基于HTTP协议的API接口

本项目使用了Python内置的http.server包来实现了一个基础的基于http协议的API服务器。通过将声学模型和语言模型连接起来,使用该服务器程序,可以直接实现一个简单的API服务器,通过POST方式进行数据交互。

客户端

本项目的客户端分为两种,均为Windows客户端,一个是UWP客户端,另一个是WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。项目包含有界面逻辑和录音模块、语音识别API调用模块,并包含对wav文件的raw格式进行的解析。

关于ASRT语音识别的详细介绍:

GitHub地址: https://github.com/nl8590687/ASRT_SpeechRecognition

ASRT各组件的详细介绍:

Kaldi

语音识别圈的基本说起开源想到的第一念头就是kaldi。但是刚入门的或者是不了解的人会有疑惑,到底kaldi具体是干什么的。这里我给大家详细解释一下什么是kaldi。

Kaldi是一个用C ++编写的语音识别工具包,项目其宗旨就是为了给语音识别研究人员使用,因为kaldi拥有大多数标准技术的代码和脚本,包括所有标准线性变换,MMI,增强MMI和MCE判别训练,以及特征空间判别训练(如fMPE,但基于提升的MMI),使得国内大部分语音识别领域的专家学者其语音研究结果都是基于kaldi来进行的。

还有一个就是数据开源:这里不得不提我们aishell-2,其数据规模达到了1000个小时。这是迄今为止全球最大的中文开源测试集,当然这是我们免费开源的,说实话当初提出这个想法的时候我们自己都吓一跳,花费大量人力物力做出来的数据,最终是免费在kaldi进行开源。虽说很肉疼,但是看到语音人对我们的认可,我们觉得还是很值得。

再送你们一个语音技术开发者神器,希尔贝壳开源了1000小时中文语音数据库,助你打开你的语音识别的大门。 附上开源数据的关键信息,现在就可以免费申请(申请邮件表明来源知乎会有专人极速回复哦): 1000小时的数据详情: http://www.aishelltech.com/aishell_2 recipe地址: https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2

每周不定时更新干货,以及AI行业行业最新报道,更有福利免费送和各大厂的内推资格,还在等什么?快来关注我把!!!!

有的。Kalid就是一个很著名的开源语音识别的开发工具,很多学者的论文也是基于Kaldi进行研究的,整个系统一直在更新,推荐你看看~