引数として与えられたテキスト(もしくは改行区切りのファイル)のフリガナをいくつかの形態素解析器を使って出力します。
テキストを入力に与えると以下の形態素解析器を利用して読み仮名を取得して出力するアプリです。 現在対応している形態素解析器は以下の通りです。
- Kuromoji IPADic Neologd(Elasticsearch's Analyzer for Kuromoji with Neologdで利用されているlucene-analyzers-kuromoji-ipadic-neologdを利用)
- Sudachi
- ビルドにはJava、Gradleが必要
- リポジトリをローカルにクローン
- Sudachiのcore辞書をここからダウンロード
- ダウンロードしたzipファイルより、
system_core.dic
をプロジェクト直下にコピー
- ダウンロードしたzipファイルより、
Gradleを利用してビルドします。
cd extract-kana-java
./gradlew build
cd extract-kana-java
./furigana.sh 東京タワー
出力
東京タワー,kuromoji_neologd,トウキョウタワー,sudachi,トウキョウ タワー
./furigana.sh -m=FILE ファイル名
./furigana.sh -h
- NDJSONフォーマットによる出力
- ファイル出力オプション
Apache License 2.0