<<  2023.9  >>
SMTWTFS
     12
3456789
10111213141516
17181920212223
24252627282930
 
リンク
その他
  • RSS2.0
  • Credit

  • SEO
    loading

    プライバシーポリシー

カテゴリー » Linux » いろいろ July 30, 2009

Linux標準日本語システム(Anthy)の変換能力を向上させる Linux

≪追記≫
この記事は少し古いです。新しいサイトの
http://linux.ikoinoba.net/index.php?UID=1270395085
に新しく書きました


Linuxの日本語入力と言えば一般的に Anthy が使われているわけですが、Wikipediaによると「主要開発者による開発は終了状態」だそうな。知らんかった、ビックリです。そんな先が思いやられるAnthyですけど、幾人の方達がメンテナンスを続けられてます。

かな漢字変換 anthy で、個人用学習データを活用して変換結果の改善を目指すパッチ
丘の道を登り
Modified Anthy

一番下のModified Anthyは上二つのパッチを含んでいる(最新版はalt-depgraphが省かれてるけど)ということで、Modified Anthyを適用したFedoraとUbuntu用のパッケージを作ってみました

rpm, deb置き場

インストールしたら一度ログアウトしてください

Ubuntuな人は anthy_9100h と libanthy0_9100h を同時に入れる必要があります
 $ sudo dpkg -i anthy_9100h*.deb libanthy0*.deb
個別に入れた場合は libanthy0_9100h が先じゃないと辞書の再作成が行われません。その際は自分で sudo update-anthy-dics

本家との違いは
  1. 学習データの保存量が増える
  2. 変換アルゴリズム「N文節最長一致」を実装。素のAnthyは「ビタビアルゴリズム」
  3. 辞書の強化。単語の追加だけでなく、検索サイトのヒット数に基づいて頻度の調整が施されている
  4. 他にもいろいろ修正してあるとのこと
注意として
  • 初回ログイン時に、これまで使ってきた学習データの形式が変換される。そのファイルがオリジナルで使えるかどうか未確認。yum、apt の設定で勝手にアップデートしないようにした方がいいと思う
  • 学習データファイルが大きくなってくると、最初の読み込みに時間が掛かるようになる?
  • ユーザ辞書やら何やらの一部が文字化けするかも? 詳細はiconv対応版の解説
  • ある程度学習データが溜まるまで、変換精度はオリジナルとあまり変わらない?

①Ⅻ㌖ 等の丸文字やローマ数字の辞書は 無効にしてあります。もし使いたいなら /usr/share/anthy/ 以下のどこかにある gt-tankanji_hikanji-34.t.norm と gt-tankanji_hikanji-uni.t.norm を $HOME/.anthy/imported_words_default.d/ にリンクしてください。

Fedora 11の人はIBusに学習しない不具合があるのでSCIMにした方がいいです
アップデートで直りました
11:55 pm

上の記事に対するコメントです

1. Rocco (Website)  2009/07/31 23:53
確かに ibus は使いにくいですね。(癖があるといった方が良いかもしれません。)
個人的にはあまり IME を信用していないので、今の Fedora 版 Anthy くらいだとほとんど不自由をかんじていなかったりしますけど、学習の容量が増えるのは魅力ですね。

2. Owner CommentSawa  2009/08/01 17:37
私のibusの不満ですが、「/」を押すと「/」が出てくるところが嫌です。windowsと同じ「・」が出てほしいのです。どこかにあるローマ字テーブルを定義しているファイルを書き換えればいいのでしょうが…

それと、ibusから単語登録する仕組みがまだ出来上がってないのは致命的だと思います。さすがFedora、いい意味でも悪い意味でも先進的! と感じました。

コメントする |

カテゴリー » Linux » いろいろ April 21, 2009

zsh でパス編集を少し楽にする - リタマス Linux

http://d.hatena.ne.jp/mooz/20090321/p1

メモメモ
11:55 pm | コメントする |

カテゴリー » Linux » いろいろ April 04, 2009

今読み書きしているプロセスを探す : \ay diary Linux

http://arika.org/diary/2009/04/03/pidstat-d

おぉ、前からこれ知りたかったのよ。何もしてないのにハードディスクがカリカリ鳴ると、裏で何が行われているのか気になって作業がおぼつかない。ほとんどは cron が動いてるだけなので、気にしてもしゃーないのですが…

試しにFedoraでコマンド打ってみた。
# yum install sysstat
# pidstat -d 3 2

Linux 2.6.27.19-78.2.30.fc9.x86_64 (snafu) 2009年04月03日
23時39分07秒 PID kB_rd/s kB_wr/s kB_ccwr/s Command
23時39分10秒 5220 0.00 1.32 0.00 emacs
23時39分10秒 8131 1.32 6.58 0.00 mount.ntfs-3g

23時39分10秒 PID kB_rd/s kB_wr/s kB_ccwr/s Command
23時39分13秒 8131 1.33 6.67 0.00 mount.ntfs-3g

平均値: PID kB_rd/s kB_wr/s kB_ccwr/s Command
平均値: 5220 0.00 0.66 0.00 emacs
平均値: 8131 1.32 6.62 0.00 mount.ntfs-3g
Vistaのリソースモニタみたいに、読み込み・書き込み中のファイル名を表示する方法は無いかな? /proc/ を漁れば探せる?

上でカリカリ音が気になると書いたけど、Vistaマシンの場合は別です。常にディスクアクセスがあるんだもの。鳴りすぎて逆に何も感じない。無我の境地
02:13 am

上の記事に対するコメントです

1. hi_saito (Website)  2009/04/04 15:38
iotop (I/O の top コマンド) というものもあり、プロセスの負荷を見るのに top コマンドの方が慣れている人には便利かもしれません。
私は sysstat 関係のコマンドも使いますが、こちらを良く利用します。
Fedora10 で 'yum install iotop' でインストールできます。

2. Owner CommentSawa  2009/04/06 00:26
topのio版があったのですね。
ありがとうです。

コメントする |

カテゴリー » Linux » いろいろ February 12, 2009

Command-line Fu < The best UNIX commands on the web Linux

http://www.commandlinefu.com

えっと、ubulogを見て知ったのですが、UNIX系OSで使えるワンライナー(一行コマンド)の投稿サイトだということです。ざっと眺めるだけでも新しい発見があります。興味深いです。

せっかくなので私がよく使うワンライナーを載せてみる。私が考えたのではなく、今は亡きLinux magazineに書いてあったやつですけど…
リンク切れのシンボリックリンクを表示
$ find PATH -type l | perl -nle '-e || print'

中身が空のディレクトリを一括削除
$ find PATH -type d | sort -r | xargs -r rmdir 2> /dev/null

ところで、さっきの ubulog で紹介されているプロセスを検索するワンライナー
$ ps aux | grep name | sed -e '/grep/d'
これは関数にする事を考えなければ
$ ps aux | grep '[n]ame'
と短くする事が可能です。なんでこれで良いのか分かります? Linuxを使い初めた頃に買った本に便利コマンドとして載ってたのですが、理解するのに苦労しましたよ(頭悪い…)
11:52 pm

上の記事に対するコメントです

1. hi_saito (Website)  2009/02/22 00:06
ps aux で出力されるのが grep '[n]ame' という文字そのものだからですね。
grep しているのは '[n]ame' だから、結果的に grep 'name' と同じですので、自分の grep には引っかからないんですが、私も実行してみて「なるほど」と思いました。

2. Owner CommentSawa  2009/02/22 04:31
心から「なるほど」と思います。こういうのがパッと思いつく頭が欲しいです。
perlとかawkなんかでパッと処理をこなす人も憧れます。

コメントする |

カテゴリー » Linux » いろいろ January 14, 2009

#!/bin/bash と alias Linux

以下のようなシェルスクリプトを実行します。
#!/bin/bash
alias echo2="echo hoge"
echo2
当然「hoge」と表示される…と私は思っていたのですが、結果は
line 3: echo2: command not found
となります。#!/bin/sh、#!/bin/zsh ではノープロブレム。#!/bin/bash の場合だけ alias が効きません。アレ? 端末で入力する時や .bashrc に記述した内容は動くのに…なんでや?

関数使えってこと?
#!/bin/bash
echo2 () {
echo hoge
}
echo2
これなら大丈夫。でもほんとにどうしてalias駄目なのよ? 何かアホな勘違いしてる?
11:34 pm

上の記事に対するコメントです

1. ムッツリーニ  2009/01/15 18:03
manに書いてありますけど。

#!/bin/bash
shopt -s expand_aliases
alias echo2="echo hoge"
echo2

2. Owner CommentSawa  2009/01/17 02:48
どもども
胸のつかえがとれました

3. 金重  2011/02/02 10:13
同じことを悩んで検索したら、このブログにたどり着きました。
Sawaさんとムッツリーニさんに感謝です。

コメントする |

累計:16437、今日:124、昨日:610
Created in 0.0124 sec.