Ngram言語モデルメモ

自然言語処理

はじめに現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章上…

2011-10-27

Predictive Search

自然言語処理プログラミング

はじめに先日作ったDouble ArrayにPredictive Searchを追加してみた。 Predictive Searchとは Common Prefix Searchは、入力文の長さまでで共通の接頭辞を持つ部分文字列を列挙した入力文が「今日は晴れ」なら「今」「今日」「今日は」...が登録されている…

2011-10-25

簡単なラティス構築とビタビアルゴリズム

プログラミング自然言語処理

はじめに雑誌に簡単なラティス構築とビタビアルゴリズムについて書かれていたので、参考にしてc++で書いてみた。実際のコスト値などはいれてない。。。説明入力文に対し、部分文字列に対し辞書引きをして、ノードとするエッジは文字列上で隣接している…

2011-10-21

系列ラベリング問題メモ

機械学習

はじめに系列ラベリング問題についてちょっと調べてみたのでメモ。系列ラベリング(系列分類)問題とはある系列xの各要素に適切なラベル列yを付与する問題例えば「This is a pen」という文書の各単語に「This(代名詞) is(動詞) a(冠詞) pen(名詞)」のよう…

2011-10-21

Common Prefix Search

プログラミング自然言語処理

はじめに先日作成したDoubleArrayに共通接頭辞検索機能を追加してみた。共通接頭辞検索とはある文字列の接頭辞(「今日のご飯」という文字列なら「今」「今日」「今日の」...)について、それが辞書に含まれるかどうかを検索すること Trie(DoubleArray)やAC…

2011-10-19

動的ダブル配列を実装してみた

プログラミング

はじめに形態素解析器などで利用されている「ダブル配列(double array)」の勉強するため、実装をしてみた。動作を確認するために書いただけなので重い。。。ダブル配列とは文字列の検索をO(1)で行えるTrie(トライ木)の効率的なデータ構造 2つの配列BASE…

2011-10-14

焼き鈍し法(SA法)メモ

プログラミング

はじめに探索空間から大域的最適解を求めることができる汎用的なアルゴリズムの「焼き鈍し法」についてちょっと調べてみたのでメモ。latticelmでも用いられているみたい。 SAアルゴリズム温度Tによって、動作が変わるメインは「メトロポリスの手続き」で…

2011-10-14

MeCabで使える辞書

自然言語処理

はじめに MeCabを使うと言っても、辞書には気をつけてなくて、実際MeCabページにおいてある辞書しか使ったことがなかった。しかし、この辞書は更新履歴(2007年！！)が古かったりして保守されているわけではない。MeCabで使えるほかの辞書はないかと思って調…

2011-10-14

超大規模テキストにおけるN-gram統計

プログラミング自然言語処理

はじめに超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ＆試してみた。与えられるデータ大量の…

2011-10-12

大規模テキストにおけるN-gram統計

プログラミング自然言語処理

はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模…

2011-10-10

Trie

プログラミング

はじめに Trieとその周辺を調べたのでまとめた。 Trie(トライ木)とは文字列探索のための順序付木構造 Prefix Treeとも呼ばれる由来は「reTRIEval」らしい共通のPrefixをまとめたデータ構造で、文字列が辞書(Trie)に登録されているかを高速に検索すること…

2011-10-07

最尤推定(ポアソン分布の場合)

確率

ポアソン分布とは http://ja.wikipedia.org/wiki/%E3%83%9D%E3%82%A2%E3%82%BD%E3%83%B3%E5%88%86%E5%B8%83 単位時間に平均で回発生する事象が、k回発生する確率パラメータによって確率Pが決まる最尤推定あるポアソン分布から生成されたデータD={0,0,1,3,…