この記事は少し古いです。新しいサイトの
http://linux.ikoinoba.net/index.php?UID=1270395085
に新しく書きました
Linuxの日本語入力と言えば一般的に Anthy が使われているわけですが、Wikipediaによると「主要開発者による開発は終了状態」だそうな。知らんかった、ビックリです。そんな先が思いやられるAnthyですけど、幾人の方達がメンテナンスを続けられてます。
・かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ
・丘の道を登り
・Modified Anthy
一番下のModified Anthyは上二つのパッチを含んでいる(最新版はalt-depgraphが省かれてるけど)ということで、Modified Anthyを適用したFedoraとUbuntu用のパッケージを作ってみました
→ rpm, deb置き場
インストールしたら一度ログアウトしてください
Ubuntuな人は anthy_9100h と libanthy0_9100h を同時に入れる必要があります
$ sudo dpkg -i anthy_9100h*.deb libanthy0*.deb個別に入れた場合は libanthy0_9100h が先じゃないと辞書の再作成が行われません。その際は自分で sudo update-anthy-dics
本家との違いは
- 学習データの保存量が増える
- 変換アルゴリズム「N文節最長一致」を実装。素のAnthyは「ビタビアルゴリズム」
- 辞書の強化。単語の追加だけでなく、検索サイトのヒット数に基づいて頻度の調整が施されている
- 他にもいろいろ修正してあるとのこと
- 初回ログイン時に、これまで使ってきた学習データの形式が変換される。そのファイルがオリジナルで使えるかどうか未確認。yum、apt の設定で勝手にアップデートしないようにした方がいいと思う
- 学習データファイルが大きくなってくると、最初の読み込みに時間が掛かるようになる?
- ユーザ辞書やら何やらの一部が文字化けするかも? 詳細はiconv対応版の解説
- ある程度学習データが溜まるまで、変換精度はオリジナルとあまり変わらない?
①Ⅻ㌖ 等の丸文字やローマ数字の辞書は 無効にしてあります。もし使いたいなら /usr/share/anthy/ 以下のどこかにある gt-tankanji_hikanji-34.t.norm と gt-tankanji_hikanji-uni.t.norm を $HOME/.anthy/imported_words_default.d/ にリンクしてください。
アップデートで直りました
11:55 pm | コメントする |
1. Rocco (Website) 2009/07/31 23:53
個人的にはあまり IME を信用していないので、今の Fedora 版 Anthy くらいだとほとんど不自由をかんじていなかったりしますけど、学習の容量が増えるのは魅力ですね。
2.
Sawa 2009/08/01 17:37
それと、ibusから単語登録する仕組みがまだ出来上がってないのは致命的だと思います。さすがFedora、いい意味でも悪い意味でも先進的! と感じました。