<<  2009.7  >>
SMTWTFS
   1234
567891011
12131415161718
19202122232425
262728293031 
 
リンク
その他
  • RSS2.0
  • Credit

  • SEO
    loading

    プライバシーポリシー

カテゴリー » Linux » いろいろ July 30, 2009

Linux標準日本語システム(Anthy)の変換能力を向上させる Linux

≪追記≫
この記事は少し古いです。新しいサイトの
http://linux.ikoinoba.net/index.php?UID=1270395085
に新しく書きました


Linuxの日本語入力と言えば一般的に Anthy が使われているわけですが、Wikipediaによると「主要開発者による開発は終了状態」だそうな。知らんかった、ビックリです。そんな先が思いやられるAnthyですけど、幾人の方達がメンテナンスを続けられてます。

かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ
丘の道を登り
Modified Anthy

一番下のModified Anthyは上二つのパッチを含んでいる(最新版はalt-depgraphが省かれてるけど)ということで、Modified Anthyを適用したFedoraとUbuntu用のパッケージを作ってみました

rpm, deb置き場

インストールしたら一度ログアウトしてください

Ubuntuな人は anthy_9100h と libanthy0_9100h を同時に入れる必要があります
 $ sudo dpkg -i anthy_9100h*.deb libanthy0*.deb
個別に入れた場合は libanthy0_9100h が先じゃないと辞書の再作成が行われません。その際は自分で sudo update-anthy-dics

本家との違いは
  1. 学習データの保存量が増える
  2. 変換アルゴリズム「N文節最長一致」を実装。素のAnthyは「ビタビアルゴリズム」
  3. 辞書の強化。単語の追加だけでなく、検索サイトのヒット数に基づいて頻度の調整が施されている
  4. 他にもいろいろ修正してあるとのこと
注意として
  • 初回ログイン時に、これまで使ってきた学習データの形式が変換される。そのファイルがオリジナルで使えるかどうか未確認。yum、apt の設定で勝手にアップデートしないようにした方がいいと思う
  • 学習データファイルが大きくなってくると、最初の読み込みに時間が掛かるようになる?
  • ユーザ辞書やら何やらの一部が文字化けするかも? 詳細はiconv対応版の解説
  • ある程度学習データが溜まるまで、変換精度はオリジナルとあまり変わらない?

①Ⅻ㌖ 等の丸文字やローマ数字の辞書は 無効にしてあります。もし使いたいなら /usr/share/anthy/ 以下のどこかにある gt-tankanji_hikanji-34.t.norm と gt-tankanji_hikanji-uni.t.norm を $HOME/.anthy/imported_words_default.d/ にリンクしてください。

Fedora 11の人はIBusに学習しない不具合があるのでSCIMにした方がいいです
アップデートで直りました
11:55 pm | コメントする |

上の記事に対するコメント

1. Rocco (Website)  2009/07/31 23:53
確かに ibus は使いにくいですね。(癖があるといった方が良いかもしれません。)
個人的にはあまり IME を信用していないので、今の Fedora 版 Anthy くらいだとほとんど不自由をかんじていなかったりしますけど、学習の容量が増えるのは魅力ですね。

2. Owner CommentSawa  2009/08/01 17:37
私のibusの不満ですが、「/」を押すと「/」が出てくるところが嫌です。windowsと同じ「・」が出てほしいのです。どこかにあるローマ字テーブルを定義しているファイルを書き換えればいいのでしょうが…

それと、ibusから単語登録する仕組みがまだ出来上がってないのは致命的だと思います。さすがFedora、いい意味でも悪い意味でも先進的! と感じました。


累計:20993、今日:377、昨日:634
Created in 0.0081 sec.