Releases: reazon-research/ReazonSpeech
Releases · reazon-research/ReazonSpeech
ReazonSpeech v2.1.0
ReazonSpeech v2.0.0
Full Changelog: v1.1.1...v2.0.0
ReazonSpeech v1.1.0
ReazonSpeech v1.1.0 は、任意長の音声のデコードをサポートした機能改善バージョンです。
2023年1月にリリースしたv1.0.0
から、認識精度の面でも一段と向上しています。
新機能
1. 新しい音声認識関数 transcribe()
を追加しました
この関数を利用すると、ReazonSpeechの最新モデルで音声認識を行うことができます。
具体的な利用方法を以下に示します。
import reazonspeech as rs
for caption in rs.transcribe("test.wav"):
print(caption)
指定可能なパラメータなどの詳細は、APIリファレンスを参照してください。
2. CLIインターフェイスを追加しました
Pythonコードを書かなくとも、コマンドラインから簡単に音声データを処理できるようになりました。
以下に利用例を示します。
$ reazonspeech sample.flac
{"start_seconds": 0.671, "end_seconds": 7.194, "text": "埼玉県寄居町で376度前橋市で37度ちょうど"}
{"start_seconds": 7.194, "end_seconds": 12.086, "text": "東京の都心で355度などと各地ですでに猛暑日となっています"}
...
3. 精度を改善した新しい音声認識モデルを公開しました
研究所で定期的に訓練している最新のモデルをHugging Faceで公開しました。
2023年1月に公開したreazonspeech-espnet-v1
モデルとの比較で、ベンチマークに対する文字誤り率が約2%改善しています。