2011-09-04から1日間の記事一覧

N-gram

はじめに 文書の数学的表現をするためによく用いられるものに「N-gram」というものがある。 最近ちょっと混乱ので、ちゃんとまとめてみる。 N-gramとは? 「文章などで隣り合うn個のこと」文書を数学的に扱うために、普通に考え付くのが「その単語がでたかど…

バイアス項

バイアス項とは 識別関数での切片bのこと。 wは分離平面の方向ベクトルで、としてベクトルにバイアスをいれ、bをw_0として扱うことで、として扱ったりする。 バイアス項は、固定されたオフセット量を許容するためのもの。 イメージ的には、バイアス項を含ま…

RBFカーネルと線形カーネルで文書分類精度に差が出たわけ

はじめに 1か月ぐらい前にやったセリフ分類で、 libsvmを使って線形カーネルとRBFカーネルの精度に差がでてた(そもそも成功はしてないけど)。 結論からいうと、パラメータをいじることで改善するけど、そこら辺の言及されているものを教えてもらったのでメモ…

TF-IDF

TF-IDFについて いくつかの文書が与えられたとき、文書中の単語の重みを決める手法の一つ。 TF(Term Frequency, 文書中の単語出現頻度) 「よくでてくる単語はその文書の主題を表しやすい」 ある文書dに単語tがでてきた個数をtf(t,d)と定める tfの定義として…

シャッフルアルゴリズム

はじめに 配列が与えられたとき、それをバラバラに並び替えたい。 C++のSTLのrandom_shuffle関数を実現したい。 Fisher-Yates shuffle http://en.wikipedia.org/wiki/Fisher-Yates_shuffle一番使われていると思われるシャッフルアルゴリズム。 n個の配列のう…