日本語の病名を正規化するツールです
DNormの日本語実装になります.
Tf-idf ベースのランキング手法により病名を正規化します。
詳細はリンク先の論文をご参照ください.
- python >= 3.6.1
- MeCab >= 0.996.5
- IPA 辞書
pip install git+https://github.com/sociocom/DNorm-J.git
ターミナルなどの端末アプリでコマンドラインアプリケーションとして使えるほか,Python スクリプト内でライブラリとして導入することが可能です.
いずれの使い方でも,初回に学習済みモデルファイルをローカル($HOME/.cache/Dnorm
)にダウンロードします.
そのため,初回起動には時間がかかります.
- -i:入力ファイル
- -o:出力ファイル
- -n:正規化先の病名リスト(デフォルト設定では指定する必要はありません)
- -d:略語展開辞書(デフォルト設定では指定する必要はありません)
python -m dnorm_j -i sample.txt -o output.txt
腸閉塞症状
高Ca尿症
二次性副腎不全
イレウス
高カルシウム尿症
副腎クリーゼ
from dnorm_j import DNorm
model = DNorm.from_pretrained()
result = model.normalize('AML')
print(result) # => '急性骨髄性白血病'
- 氏家翔吾(奈良先端科学技術大学院大学)