ナイーブベイズで「日本」の読み分けを試す

自然言語処理プログラミング

はじめに「日本」は、「にほん」と「にっぽん」どちらの読み方もできる。しかし、読み分けが必要な場合も存在する。(東京の日本(にほん)橋と大阪の日本(にっぽん)橋、会社名、など)同型異音語や多義性解消だと、よく周辺文字を素性にして分類問題を解く、 …

2013-04-06

文字列カーネルで遊ぶ

自然言語処理プログラミング

はじめにちょっと、高次元特徴空間での2つの文字列の像の内積である文字列カーネルで遊んでみる。文字列カーネルを類似度として使いたい。遊びなので、数式はちゃんと追ってない、、、文字列カーネル文字列に対するカーネルカーネルKは、入力空間Xから…

2013-03-28

テキスト自動要約メモ

自然言語処理

はじめに前から気になっててほっといてた自動要約についてメモ。文短縮とか試してみたい。テキスト要約与えられたテキストをより短いテキストに簡潔にまとめること要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数) 要約の過程以…

2013-03-23

くさいセリフ判定

自然言語処理プログラミング

はじめにくさいセリフを恋人につぶやいてドン引きされてしまう問題を自然言語処理の力で解決するため、くさいセリフかどうかを判定するプログラムを試してみる。 , -──- 、／:::::::::::::: ::＼ /::::::::::: ::∨ﾄ､こいつはくせえッー！ :::::::::: :: ﾚ…

2013-02-22

HyperLogLogで遊ぶ

プログラミング自然言語処理

はじめに「さぁ、お前の罪の異なり数を数えろ！」と言われたときに使えそうな「HyperLogLog」という異なり数をカウントする方法を教えてもらったので、遊んでみた。いつもながら論文ちゃんと読んでないので、条件やコード間違ってるかも。。。 HyperLogLog…

2013-02-02

ウェーブレット木を試す

自然言語処理プログラミング

はじめに巨大な文字列でも高速にクエリ処理できる噂の木を、挙動を確認するため作ってみた。コードアルファベット(a〜z)の文字列を扱う場合完備辞書の操作が愚直、ビット列がvector 本を参考にしたけど、2か所間違ってる？ #include <iostream> #include <vector> #include <queue></queue></vector></iostream>…

2012-09-30

構文解析メモ

自然言語処理プログラミング

はじめに「構文解析」まわりについてちょっと調べたのでメモ。ただ、資料が少なくて内容が怪しい部分が多い。構文解析とは入力された文に対して、文を構成しているそれらの構文構造を同定すること文法規則が定められたプログラミング言語、正規表現、HT…

2012-09-07

名詞を集める(ただし、読み情報も)

自然言語処理

はじめに形態素解析するとき、最初に用意された辞書だけでは固有名詞などが少なく、うまくいかないことがある。しかし、名詞は無数に存在し、どんどん新しい言葉がでてくるので、、形態素解析器の辞書に入れておくのが難しい。そこで、ネットにあるデータ…

2012-08-31

焼きなまし法で単語分割

自然言語処理プログラミング

はじめにオライリーの「入門自然言語処理」に、焼きなまし法を使った教師なし単語分割について書かれていたので、これを試す。アプローチ「出現単語数」＋「のべ出現単語数」＋「入力文の文字数(固定)」＝目的関数を最小化単語の区切り位置を温度によっ…

2012-05-31

品詞メモ

自然言語処理

はじめに単語の分類法としてよく利用されている「品詞」についてちょっとメモ。【以下、「基礎日本語文法-改訂版-」(益岡・田窪共著)がベースの文、語、品詞について】 1.文 1-1.文とは言語表現の基本的な単位文章や会話は、複数の文の組み合わせにより…

2012-03-31

言語モデル構築Toolメモ

自然言語処理

はじめに世の中には言語モデルを構築するToolkitはたくさんあるということで、簡単に探してみた。言語モデルツールキット SRILM - The SRI Language Modeling Toolkit http://www.speech.sri.com/projects/srilm/ Palmkit - a statistical language modeli…

2011-12-10

DSIRNLPで発表させていただきました

自然言語処理プログラミング

12/10にmixiさんで行われたDSIRNLP勉強会で発表させていただきました聴きにきていただいた方ありがとうございましたスライド資料 http://www.slideshare.net/phyllo/ngram-10539181 自然言語処理はじめました - Ngramを数え上げまくる View more presentat…

2011-11-01

形態素解析器のデコーダ部分を作ってみた

プログラミング自然言語処理

はじめに形態素解析器のデコーダ部分を超簡単に書いてみた。いつも通り速度などは考えずに流れを学ぶために書いているので遅い。。。あと「辞書の構築(コスト計算)」と「未知語処理」ができればそれっぽいものができそうな予感。速度の改善などは、doubl…

2011-10-31

Ngram言語モデルメモ

自然言語処理

はじめに現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章上…

2011-10-27

Predictive Search

自然言語処理プログラミング

はじめに先日作ったDouble ArrayにPredictive Searchを追加してみた。 Predictive Searchとは Common Prefix Searchは、入力文の長さまでで共通の接頭辞を持つ部分文字列を列挙した入力文が「今日は晴れ」なら「今」「今日」「今日は」...が登録されている…

2011-10-25

簡単なラティス構築とビタビアルゴリズム

プログラミング自然言語処理

はじめに雑誌に簡単なラティス構築とビタビアルゴリズムについて書かれていたので、参考にしてc++で書いてみた。実際のコスト値などはいれてない。。。説明入力文に対し、部分文字列に対し辞書引きをして、ノードとするエッジは文字列上で隣接している…

2011-10-21

Common Prefix Search

プログラミング自然言語処理

はじめに先日作成したDoubleArrayに共通接頭辞検索機能を追加してみた。共通接頭辞検索とはある文字列の接頭辞(「今日のご飯」という文字列なら「今」「今日」「今日の」...)について、それが辞書に含まれるかどうかを検索すること Trie(DoubleArray)やAC…

2011-10-14

MeCabで使える辞書

自然言語処理

はじめに MeCabを使うと言っても、辞書には気をつけてなくて、実際MeCabページにおいてある辞書しか使ったことがなかった。しかし、この辞書は更新履歴(2007年！！)が古かったりして保守されているわけではない。MeCabで使えるほかの辞書はないかと思って調…

2011-10-14

超大規模テキストにおけるN-gram統計

プログラミング自然言語処理

はじめに超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ＆試してみた。与えられるデータ大量の…

2011-10-12

大規模テキストにおけるN-gram統計

プログラミング自然言語処理

はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。大規模…

2011-09-29

形態素解析器メモ

自然言語処理プログラミング

はじめに形態素解析器が何たるかも知らずにいたのでメモ。形態素とは？意味を持つ最小の言語単位形態素＜単語＜文＜テキスト(ドキュメント) 例えば「今日は晴れ」という文は「今日」＋「は」＋「晴れ」のような形態素(単語)に分解できる形態素解析とは…

2011-09-22

計量文献学

自然言語処理

計量文献学とは？文献の特徴を数値化→統計的にその文献の分析・比較を行う方法または学問「書き手によって文章に現れる言葉は違うのではないか？」に注目文体(文章などのスタイル、和文・漢文、ですます・である調など)に注目＝計量文体学著者が同じ人か…

2011-09-18

転置インデックスの索引の効率的な保存

自然言語処理

はじめに索引データの保存に関する記事を読んだのでメモ。索引データの効率的な保存ドキュメント数やできた索引数が多くなるにつれ、効率的に索引データを保存することが重要になってくる工夫して索引データを保存することで、いろんなメリットがあるメ…

2011-09-15

コーパス・言語データ

自然言語処理

はじめに言語処理するのに基となるデータ(言語データ、コーパス)についてまとめてみる。データ・テキストマイニングなどに。必要に応じてダウンロードして試してみたい。コーパス(corpus)とは自然言語処理の研究に用いるために、自然言語の文章(用例)を…

2011-09-12

言語モデルの評価尺度

自然言語処理

エントロピー、パープレキシティ言語Lにおいて、単語列の生起確率がのとき、1単語あたりのエントロピーは、になる。ある単語について、平均して個の単語が次につながりうることを表す。このはパープレキシティと呼ばれる。なので、パープレキシティを見…

2011-09-07

全文検索エンジンメモ

自然言語処理

検索の種類逐次検索(grep)型すべてのドキュメントを順次探していく方法ドキュメントの増加により検索速度が低下する普通に探索、KMP法、BM法など全部見るので、検索漏れがない並列化しやすい Suffix型事前に全てのドキュメントを検索可能な構造に変換…

2011-09-06

言語モデル

自然言語処理

はじめに自然言語処理だけでなく、音声認識、スペルチェック、情報検索など多くの分野で使われている「(確率的)言語モデル」について、少しまとめてみる。言語モデル「今日/は/晴れ」や「明日/は/雨」などの文はよく使われるのに対し、「晴れ/は/今日」や…

2011-09-04

N-gram

自然言語処理

はじめに文書の数学的表現をするためによく用いられるものに「N-gram」というものがある。最近ちょっと混乱ので、ちゃんとまとめてみる。 N-gramとは？「文章などで隣り合うn個のこと」文書を数学的に扱うために、普通に考え付くのが「その単語がでたかど…

2011-09-04

TF-IDF

自然言語処理プログラミング

TF-IDFについていくつかの文書が与えられたとき、文書中の単語の重みを決める手法の一つ。 TF(Term Frequency, 文書中の単語出現頻度) 「よくでてくる単語はその文書の主題を表しやすい」ある文書dに単語tがでてきた個数をtf(t,d)と定める tfの定義として…

2011-08-27

ナイーブベイズ

自然言語処理プログラミング機械学習

はじめに「言語処理のための機械学習入門」の第４章のナイーブベイズを勉強のため実装してみた。多変数ベルヌーイモデルについて、最尤推定のものと、最大事後確率推定のものをc++で動かしてみた。ナイーブベイズ分類器とは？古典的な分類器事例dがどの…