11 月 15 日,第五届 Kaldi 技术交流会在北京举办。Kaldi 之父 Daniel Povey
博士首次亲临现场,与来自北京各大互联网公司、知名高校的开发者们深入交流下一代 Kaldi 社区未来的发展。

  加入小米一年,Daniel Povey 设计并开发出了新一代 Kaldi。新一代 Kaldi
分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

  其中,Lhotse(训练数据准备部分)将替代以前 Kaldi 中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse 除了 Kaldi
本身,也适用于其他应用。而且 Lhotse 纯 Python 代码,方便易用。

  Icefall(示例脚本集合部分)将代替 Kaldi
中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

  据介绍,新一代 Kaldi 的核心部分叫“k2”。k2 可以让开发者很容易在 PyTorch/TensorFlow 中实现各种语音识别相关算法,比如
CTC、LF—MMI、RNN—T、2nd—pass 语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

  同时,通过 k2 可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2
速度更快,通用性强(可以用来建模多种语音识别算法)。

  Daniel Povey 博士透露,k2 核心代码已完成。约 41000 行代码(主要是C++),本周刚发布 0.1 版本。

  资料显示,Daniel Povey 博士目前担任小米集团语音首席科学家,由他开发和维护 Kaldi 集成了多种语音识别模型,公认是业界语音识别框架的基石。

技术
©2020 ioDraw All rights reserved
泡泡玛特拟12月11日在香港上市 最多融资6.74亿美元java:数组及数组常用算法总结Kaldi之父Daniel Povey博士:发布k2核心代码血管里有垃圾 必须定期输液通?坑你没商量袁隆平团队再次向双季稻亩产1500公斤冲刺mvcc实现原理Java程序员还没有掌握SpringBoot?这一份文档,你真应该好好学学微信小程序自定义波浪组件操作系统与网络协议晦涩难懂,华为18级工程师神级文档助你过关C/C++字符串格式化