-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathREADME
40 lines (32 loc) · 2.74 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
This is unmaintained ancient stuff and not for general use.
このパッケージは広く利用されることを目指したものではなく、現時点での開発者が
リリースを行なったイベント、webサイト等の参加者や読者に対する同人的ソフト的
なものです。実用的な価値を求めずに、技術的な面での議論のネタとして利用して
いただければ、開発者としては幸いです。
このため、一般的なオープンソースコミュニティ向けのソフトウェアに見られるような
メンテナンスや互換性の保持に関するコミットメントは無いものと解釈してください。
また、APIの変更に伴う関連するソフトウェアとの非互換等の問題があったとしても、
関連するソフトウェアの開発元への要求は避けてくださるようお願いします。
インストール(及びアンインストール)の方法はINSTALLをお読みください。
この配布物に含まれるデータのライセンスについてはCOPYINGをお読みください。
Yusuke Tabata ([email protected])
筆者は2000年5月の開発開始から2007年7月までAnthyの開発とリリースを行いました。
開発を止めて10年少し経過したので、思い出話の材料として手元にあったものを
公開しておくことにしました。このパッケージには最終リリース以降に行なった内輪向けの
変更が多少含まれています。
開発を進めていた頃、誰かが大昔に作り込んで放置された前世代のソフトウェアを
表面的にしか理解せずに(内部まで理解した人が誰もいない状態で)使い続けるのは不健全
だという主張をしていた記憶があります。
読者の方がこの文章が読まれる時代のオープンソースの日本語入力の開発はどうなって
いますでしょうか? :p
lattice中のパスの素性ベクトルに対し、そのベクトルを選択した際に
正変換となる確率を例文から学習することで文節の区切りを決定しています。
素性ベクトルから確率の決定はMemory Basedで行っています。
ベクトル空間のsparsenessに対応するため、複数のベクトル空間から確率を
計算し、それぞれを利用することで精度の向上を図っています。
複数の空間はそれぞれ
(1) 低次元で一般的な形式の文節を扱うもの
(2) 高次元で珍しい形式の正変換を扱うもの
(3) 高次元で一定回数異常発生した誤変換を扱うもの
の3種類を利用しています。
候補の順序の決定には辞書中の頻度情報と正変換の確率を用いています。