11 月 15 日,第五届 Kaldi 技术交流会在北京举办。Kaldi 之父 Daniel Povey
博士首次亲临现场,与来自北京各大互联网公司、知名高校的开发者们深入交流下一代 Kaldi 社区未来的发展。

  加入小米一年,Daniel Povey 设计并开发出了新一代 Kaldi。新一代 Kaldi
分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

  其中,Lhotse(训练数据准备部分)将替代以前 Kaldi 中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse 除了 Kaldi
本身,也适用于其他应用。而且 Lhotse 纯 Python 代码,方便易用。

  Icefall(示例脚本集合部分)将代替 Kaldi
中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

  据介绍,新一代 Kaldi 的核心部分叫“k2”。k2 可以让开发者很容易在 PyTorch/TensorFlow 中实现各种语音识别相关算法,比如
CTC、LF—MMI、RNN—T、2nd—pass 语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

  同时,通过 k2 可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2
速度更快,通用性强(可以用来建模多种语音识别算法)。

  Daniel Povey 博士透露,k2 核心代码已完成。约 41000 行代码(主要是C++),本周刚发布 0.1 版本。

  资料显示,Daniel Povey 博士目前担任小米集团语音首席科学家,由他开发和维护 Kaldi 集成了多种语音识别模型,公认是业界语音识别框架的基石。

技术
今日推荐
阅读数 25
阅读数 17
阅读数 11
阅读数 11
阅读数 10
友情链接
码工具
Toolsou
API参考文档
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:766591547
关注微信