MeCabで使える辞書

はじめに

MeCabを使うと言っても、辞書には気をつけてなくて、実際MeCabページにおいてある辞書しか使ったことがなかった。しかし、この辞書は更新履歴(2007年!!)が古かったりして保守されているわけではない。MeCabで使えるほかの辞書はないかと思って調べてみたらあったので試してみた。

辞書

IPAdic
NAIST-jdic
$ ./configure --with-charset=utf-8
$ make
$ sudo make install

/usr/local/lib/mecab/dic/naist-jdicにインストールされるので、
/usr/local/etc/mecabrcの「dicdir=」のパスを上記のものに変更する
UniDic
  • 国立国語研究所で規定した「短単語」という揺れのない斉一な単位で設計されている
  • 利用者登録が必要だけど無償でダウンロードできる
  • 分割力がすごいらしい
$ ./configure --with-use-mecab=1 --with-use-chasen=0
$ make
$ sudo make install

/usr/local/unidic/dic/unidic-mecabにインストールされるので、
/usr/local/etc/mecabrcの「dicdir=」のパスを上記のものに変更する

魔法少女まどかマギカ」を形態素解析してみた

  • MeCabページのIPAdic(2.7.0-20070801)
魔法少女まどかマギカ
魔法	名詞,一般,*,*,*,*,魔法,マホウ,マホー
少女	名詞,一般,*,*,*,*,少女,ショウジョ,ショージョ
まどか	名詞,固有名詞,人名,名,*,*,まどか,マドカ,マドカ
マギカ	名詞,固有名詞,組織,*,*,*,*
EOS
魔法少女まどかマギカ
魔法	名詞,一般,*,*,*,*,魔法,マホウ,マホー,,
少女	名詞,一般,*,*,*,*,少女,ショウジョ,ショージョ,,
まどか	名詞,形容動詞語幹,*,*,*,*,まどか,マドカ,マドカ,,
マギカ	名詞,一般,*,*,*,*,*
EOS
  • unidic(1.3.12)
魔法少女まどかマギカ
魔法	名詞,普通名詞,一般,*,*,*,マホウ,魔法,魔法,マホー,マホウ,漢,魔法,マホー,マホウ,マホウ,*,*,*,*,*,*,0,C2,*
少女	名詞,普通名詞,一般,*,*,*,ショウジョ,少女,少女,ショージョ,ショウジョ,漢,少女,ショージョ,ショウジョ,ショウジョ,*,*,*,*,*,*,1,C1,*
まどか	名詞,固有名詞,人名,名,*,*,マドカ,マドカ,まどか,マドカ,マドカ,固,まどか,マドカ,マドカ,マドカ,*,*,*,*,*,*,1,*,*
マギ	名詞,普通名詞,一般,*,*,*,マギ,マギ,マギ,マギ,マギ,外,マギ,マギ,マギ,マギ,*,*,*,*,*,*,1,C3,*
カ	助詞,格助詞,*,*,*,*,ガ,が,カ,ガ,カ,和,カ,ガ,カ,ガ,*,*,*,*,*,*,*,"動詞%F2@0,名詞%F1",*
EOS
<ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp" xsi:schemaLocation="urn:yahoo:jp:jlp http://jlp.yahooapis.jp/MAService/V1/parseResponse.xsd">
<ma_result>
<total_count>4</total_count>
<filtered_count>4</filtered_count>
<word_list>
<word>
<surface>魔法</surface>
<reading>まほう</reading>
<pos>名詞</pos>
</word>
<word>
<surface>少女</surface>
<reading>しょうじょ</reading>
<pos>名詞</pos>
</word>
<word>
<surface>まどか</surface>
<reading>まどか</reading>
<pos>名詞</pos>
</word>
<word>
<surface>マギカ</surface>
<reading>まぎか</reading>
<pos>名詞</pos>
</word>
</word_list>
</ma_result>
</ResultSet>

おわりに

結局どの辞書がいいのか?というのに答えるのはムズカしい。
けど、下記のブログなどでも言っているように、場合によって使い分けることと、
基本はMeCabページにおいてあるIPA-legacy辞書で良さげな感じに思えた。