コーパス・言語データ
コーパス(corpus)とは
データ収集
実際にダウンロードして使うことができる言語データ、コーパスなどのメモ。
普通は作るのにも手間がかかるため有料だったりするけど、Web上のデータをクロールするなりすれば無料でも集められたりできる。
青空文庫
- http://www.aozora.gr.jp/
- 著作権の切れた作品や公開可能な一般書籍
京都テキストコーパス
WordNet
- http://wordnet.princeton.edu/
- http://nlpwww.nict.go.jp/wn-ja/
- 英語、日本語の概念(意味)辞書
はてなダイアリー
- http://d.hatena.ne.jp/changes.xml
- 更新のあったブログリスト
Yahooニュース
- http://public.news.yahoo.co.jp/rss/
- ニュースやトピックスのRSS
読売新聞ニュース
- http://www.yomiuri.co.jp/tools/rss/
- 読売新聞の主要ニュースなどのRSS
2chトピックス一覧
- http://kamome.2ch.net/カテゴリ名/subback.html
- 各カテゴリのスレ一覧
- 各ページの右下のリンクから過去ログtxtがダウンロードできる
日本文学学術電子図書館
- http://www.j-texts.com/
- 日本文学の学術テキスト
郵便番号よみがなデータ
- http://www.post.japanpost.jp/zipcode/dl/kogaki.html
- 各都道府県の郵便番号と住所情報
最後に
何か対象とするものをよく捉えているものを使う必要がある。
自分でデータを集めたり作ったりする場合は、目的の一部しかとらえられていない、なんてことがないようにしないといけない。
ぶっちゃけ、データを眺めているだけでもおもしろい:)