MeCabで使える辞書
はじめに
MeCabを使うと言っても、辞書には気をつけてなくて、実際MeCabページにおいてある辞書しか使ったことがなかった。しかし、この辞書は更新履歴(2007年!!)が古かったりして保守されているわけではない。MeCabで使えるほかの辞書はないかと思って調べてみたらあったので試してみた。
辞書
- 各辞書による結果を比較できるサイト( http://www.mwsoft.jp/programming/munou/mecab_dic_perform.html )
IPAdic
- http://sourceforge.net/projects/mecab/files/mecab-ipadic/
- MeCabページにおいてあるIPA辞書
- 実際にはMeCab用にパラメータを設定してあるらしい
NAIST-jdic
- http://sourceforge.jp/projects/naist-jdic/
- IPA辞書の後継
- 「可能性に基づく品詞の整理」というものが行ってある
- コーパス修正中らしく、見かけの精度は悪いらしい
$ ./configure --with-charset=utf-8 $ make $ sudo make install /usr/local/lib/mecab/dic/naist-jdicにインストールされるので、 /usr/local/etc/mecabrcの「dicdir=」のパスを上記のものに変更する
UniDic
- 国立国語研究所で規定した「短単語」という揺れのない斉一な単位で設計されている
- 利用者登録が必要だけど無償でダウンロードできる
- 分割力がすごいらしい
$ ./configure --with-use-mecab=1 --with-use-chasen=0 $ make $ sudo make install /usr/local/unidic/dic/unidic-mecabにインストールされるので、 /usr/local/etc/mecabrcの「dicdir=」のパスを上記のものに変更する
「魔法少女まどかマギカ」を形態素解析してみた
- MeCabページのIPAdic(2.7.0-20070801)
魔法少女まどかマギカ 魔法 名詞,一般,*,*,*,*,魔法,マホウ,マホー 少女 名詞,一般,*,*,*,*,少女,ショウジョ,ショージョ まどか 名詞,固有名詞,人名,名,*,*,まどか,マドカ,マドカ マギカ 名詞,固有名詞,組織,*,*,*,* EOS
- NAIST-jdic(0.6.3b)
魔法少女まどかマギカ 魔法 名詞,一般,*,*,*,*,魔法,マホウ,マホー,, 少女 名詞,一般,*,*,*,*,少女,ショウジョ,ショージョ,, まどか 名詞,形容動詞語幹,*,*,*,*,まどか,マドカ,マドカ,, マギカ 名詞,一般,*,*,*,*,* EOS
- unidic(1.3.12)
魔法少女まどかマギカ 魔法 名詞,普通名詞,一般,*,*,*,マホウ,魔法,魔法,マホー,マホウ,漢,魔法,マホー,マホウ,マホウ,*,*,*,*,*,*,0,C2,* 少女 名詞,普通名詞,一般,*,*,*,ショウジョ,少女,少女,ショージョ,ショウジョ,漢,少女,ショージョ,ショウジョ,ショウジョ,*,*,*,*,*,*,1,C1,* まどか 名詞,固有名詞,人名,名,*,*,マドカ,マドカ,まどか,マドカ,マドカ,固,まどか,マドカ,マドカ,マドカ,*,*,*,*,*,*,1,*,* マギ 名詞,普通名詞,一般,*,*,*,マギ,マギ,マギ,マギ,マギ,外,マギ,マギ,マギ,マギ,*,*,*,*,*,*,1,C3,* カ 助詞,格助詞,*,*,*,*,ガ,が,カ,ガ,カ,和,カ,ガ,カ,ガ,*,*,*,*,*,*,*,"動詞%F2@0,名詞%F1",* EOS
<ResultSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="urn:yahoo:jp:jlp" xsi:schemaLocation="urn:yahoo:jp:jlp http://jlp.yahooapis.jp/MAService/V1/parseResponse.xsd"> <ma_result> <total_count>4</total_count> <filtered_count>4</filtered_count> <word_list> <word> <surface>魔法</surface> <reading>まほう</reading> <pos>名詞</pos> </word> <word> <surface>少女</surface> <reading>しょうじょ</reading> <pos>名詞</pos> </word> <word> <surface>まどか</surface> <reading>まどか</reading> <pos>名詞</pos> </word> <word> <surface>マギカ</surface> <reading>まぎか</reading> <pos>名詞</pos> </word> </word_list> </ma_result> </ResultSet>