若旦那の独り言wp

Runnin' Wild

Archive for 12月 4th, 2009

Google日本語入力にATOK辞書をコンバート

with 4 comments

ATOKほどじゃないにしろ、Windows IMEよりは良さそうなのでBootCamp/Parallelsには入れようかと。まーしかし、エラいもんが出てきましたな。

20%ルールを使って作られたというGoogle日本語入力。Googleの「もしかして」のサジェスト機能を活かした予測変換形式を使っているらしく、とにかく予測変換の能力がハンパない。その話題はもうネットでも駆け巡ってる通り。あとは知らない単語をどれだけ教えていくかというレベルであり、語彙力はしっかり持っていると思われる。

俺は連文節変換はほとんどしないので、これくらいのレベルでもぜーんぜん問題ない。長い文章を書いてまとめて変換したときに、修正するのが面倒だからという理由なのだけど(笑)、実際登録単語さえATOKから移行できれば問題なく使えるレベルのIMEだと言えるだろう。

しかし問題もある。現在のところ、辞書をそのまま移行できるのはIMEとGoogleの辞書のみ。ことえりやMac版のATOKには対応していないのだ。……しかしもちろん、抜け道はある。(ニヤリ)今書いてるこの辞書はATOKからコンバートしたもの。その他あわせて6000個弱をコンバートしている。

やり方は下記の通り。(画像はそれぞれ大きくなります)

1.ATOKの辞書ユーティリティからテキストで辞書を書き出し

googleime_1.jpg
[ツール]-[単語・用例の一覧出力…]で単語を書き出す。ちなみにATOK2009では品詞の選別や自動登録単語を外すこともできる。動詞や形容詞などはあまり書き出しても意味なさそうなので(笑)、とりあえず名詞を書き出すことをお勧めする。自動登録単語も間違って登録されたものも多いので、もしあまり作業をしたくないならこれも外した方がいい。

2.エディタで開いて加工

googleime_2.jpg
Googleの辞書ツールはUTF-8のテキストファイルを読むことができる。ATOKの書き出しテキストはUTF-16になっているので、まずその部分を直す必要がある。miやJeditで開いてフォーマットをUTF-8に変更しよう。さらに1行が1単語として登録されるので、 上のほうにあるATOKのテキスト云々てヤツ(画像の青いトコ)は削除しよう。

googleime_3.jpg
一番の問題は登録品詞。これがGoogleの持っている品詞と違うものは、登録できても単語として利用できないようだ。なので同じくエディタの置換機能を使ってこれらを変換してやる。登録単語には”*”、自動登録単語には”$”がついてるが、これらも当然消す。「名詞サ変」とかは「名詞」に、「一段動詞」は「動詞一段」にといった感じ。Google側の登録品詞は、辞書ツールの「品詞」のところに出ているものがそうなので、確認しながら変更しよう。最終テキスト名には拡張子.txtを忘れずに。

3.インポート

googleime_4.jpg
テキストエディタでここまで加工したら、あとは[管理]-[選択した辞書にインポート…]で、修正ファイルを選択。フォーマットは[Google]で、エンコードは[UTF-8]にしてインポート。これでコンバートができる。コンバート完了後に「登録単語の中に使えないものがあります」とか出てくるが、あまり気にしないで使っていい。(笑)
#いや、問題はあるのかもしれないが、とりあえず今んとこわからない。w

これで固有名詞などは辞書に登録が完了。「あいふぉん」で「iPhone」がでない、なんてこともなくなったし、「じぇみー」で「ジェミー・リー・カーティス」が候補に出てくるようになった。 (笑)非常に豊富な変換候補を含むGoogle IMEだが、やはり自分用の登録語だけでも登録した方が使いやすくなりそうだ。

さて、この辞書を書き出してwindozeに入れるか〜。(「うぃん」で「windoze」が出てくる。うん、俺の辞書だw)

Written by ei

12月 4th, 2009 at 3:12 am

Posted in Mac

Tagged with