2013-04-01から1ヶ月間の記事一覧

Locality Sensitive Hashによる類似ベクトル検索を試す

はじめに 類似性が高いベクトルのハッシュ値が近い値になるようなハッシュ関数を使って、 類似するものを高速に検索することができるので、それを試してみた。 Locality Sensitive Hash 類似するデータが高確率で近い値になる(Locality-Sensitive)ハッシュ関…

ナイーブベイズで「日本」の読み分けを試す

はじめに 「日本」は、「にほん」と「にっぽん」どちらの読み方もできる。 しかし、読み分けが必要な場合も存在する。(東京の日本(にほん)橋と大阪の日本(にっぽん)橋、会社名、など)同型異音語や多義性解消だと、よく周辺文字を素性にして分類問題を解く、 …

時系列解析メモ

はじめに 時系列解析について、簡単にメモ。 時系列(time series)とは 時間の経過で変動する何かの数値の列 例:気象データ、株価、など 時系列解析は、このデータを統計解析すること 時系列の分類 連続時間・離散時間 時間間隔が連続的か、離散的(1時間おき…

MDS&文字列カーネルの可視化を試す

はじめに せっかく文字列カーネルで遊んでみたので、可視化も試してみる。 Multidimensional Scalingとは n個のm次元ベクトルについて、それらの距離のみが与えられる それらの距離をできる限り保存して低次元空間(1,2,3次元など)にマッピングする方法 通常…

文字列カーネルで遊ぶ

はじめに ちょっと、高次元特徴空間での2つの文字列の像の内積である文字列カーネルで遊んでみる。 文字列カーネルを類似度として使いたい。遊びなので、数式はちゃんと追ってない、、、 文字列カーネル 文字列に対するカーネル カーネルKは、入力空間Xから…