編集距離で遊ぶ

自然言語処理プログラミング

はじめに簡単な例としてよく出てくる「編集距離」を使って、英単語の修正を試してみる。(編集距離が小さいものを列挙するまで) dpができなすぎるので、「dpやるだけ」って言えるようになりたい。編集距離とはある文字列sからある文字列tへ、文字の削除、…

2014-04-29

単語の数学的表現メモ

自然言語処理

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、…

2014-04-01

日猫/猫日翻訳を試す

misc. プログラミング

はじめに先日北海道で行われたNLP2014(Neko Language Processing 2014)で最優秀賞だった「ビットペア法を用いた日本語-猫語翻訳アルゴリズム」を試してみました。ネコ氏の鳴き声を分析したところ特徴的なパターンが見られ、日本語とネコ語間の変換ルールを…

2014-03-23

ナップサック問題として複数文書要約を解くを試す

自然言語処理プログラミング

はじめに複数文書要約をナップサック問題として解く、という話を聴いて、簡単に試せそうなのでやってみる。手法西川ら「冗長性制約付きナップサック問題に基づく複数文書要約モデル」 https://www.jstage.jst.go.jp/article/jnlp/20/4/20_585/_pdf上記の…

2014-03-01

EntityLinkingメモ

自然言語処理

はじめに WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。次元圧縮！ Entity Linkingとはテキストに出てくるエンティティ(実体)を識別・決定するタスク固有名詞抽…

2014-02-28

Counting Bloom Filterを試す

プログラミング

はじめに悩み多き年頃なので、進捗ダメです。 KVS見てるときに出てきた、次元圧縮っぽさがあるBloom Filterを試してみる。 Bloom Filterとは「ある要素が集合に含まれるか否か？」を扱えるデータ構造要素をそのまま保存せず、ハッシュ値にしたものを配列…

2014-01-28

Matrix Factorizationで遊ぶ

機械学習プログラミング

はじめに次元削減せずにはいられない。 0の扱いがいまいちピンとこなかったので、ちょっと調べて試してみた。 Matrix Factorizationとは Netflix Prizeという推薦システム・協調フィルタリングのコンテストで良い結果を残した手法行列Mを、2つの行列P,Qの…

2014-01-25

大野の語彙法則を試す

自然言語処理

はじめに読んでた本に出てきた法則が気になったので、試してみた。大野の語彙法則任意の3作品A,B,Cについて、品詞ごとの構成比を計算しておく名詞の構成比をX_0, x, X_1とし、任意の品詞の構成比をY_0, y, Y_1とする次の関係式が近似的に成り立つ (y-Y_…

2014-01-16

SdAで遊ぶ

機械学習プログラミング

はじめに Deepな話で、簡単に試せそうだったStacked Denoising AutoEncoderを試しに遊んでみる。あんまり詳しく調べていないので、お遊びレベルという感じで・・・注意:下記では「特徴抽出器」として利用する方法を試しています。通常は事前学習として行い…

2014-01-10

格メモ

自然言語処理

はじめに少しずつ曖昧な理解の部分をなくしていきたい。「格」についてちょっとメモ。格(case) おおざっぱに言うと、文法的または意味的役割のこと格の種類を見れば、役割を判断できるような感じ別の定義では、語と語(名詞と述語)の間に成り立つ意味関…

2013-12-28

助詞メモ

自然言語処理

はじめに日に日に日本語がわからなくなっていっているので、助詞についてメモしておく。細かい部分は各文法・体系や、使うときの都合によると思うので、ここでは大雑把に。助詞とは品詞の一つ単語の文法的な性質による分類が「品詞」助詞は、述語につ…

2013-12-09

やる夫が(インライン)アセンブラを使って競技プログラミングに挑戦するようです

プログラミング

この記事はCompetitive Programming Advent Calendar Div2013の9日目の記事です。今年も、競技プログラミングでほとんど役に立たないネタをお送りします。 1：名無しのターゲットさん：2013/12/9(月) 00:25:07 id:jetbead ! | !l |! ! | ! | ! l | ! l |! | …

2013-12-07

ランダムフォレストで遊ぶ

機械学習プログラミング

はじめに簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ詳細な紹介や内容は「参考…

2013-11-29

ロジスティック回帰で分類を試す

機械学習プログラミング

はじめにそういえばliblinearよく使うのにロジスティック回帰自分で書いた事ないなぁと思ったので、ちょっと書いてみた。詳しい解説記事とてもいい感じの連載がされている。 http://gihyo.jp/dev/serial/01/machine-learning L1/L2正則化については以下も…

2013-11-09

文書分類メモ

自然言語処理

はじめに文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とはテキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付…

2013-11-07

疎行列の格納方式メモ

プログラミング

はじめに巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なも…

2013-10-31

liblinearモデルファイルのフォーマットを確認

機械学習

はじめにちょっと気になったので、liblinearで扱われているモデルのフォーマットについて確認する。言語処理などで高次元なものを扱う場合、線形カーネル(ただの内積)を扱った方が精度がよい場合が結構あるので、自力でモデルファイルをパースできるように…

2013-10-11

AutoEncoderで遊ぶ

機械学習プログラミング

はじめに次元圧縮がマイブーム化しているので、最近はやりのAutoEncoderで遊んでみる。べ、別に深い何かのためにやろうとしてるわけじゃn AutoEncoderとは入力と出力が近くなるように学習するニューラルネットワーク (枠組みをさすだけでニューラルネット…

2013-10-05

逐次確率比検定を試す

確率統計

はじめにあらかじめ標本サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。逐次確率比検定とはベイズ統計学の枠組…

2013-10-05

標本抽出メモ

統計

はじめに大量(または無限)のデータがあっても、人が確認するだとか、1つのデータあたりのなんらかのコストが高い場合、少量のデータを選んで利用する事が多い。(大量に収集されたログデータの分析をするとか、あるプログラムのパフォーマンスを見るために速…

2013-09-28

Mann-WhitneyのU検定メモ

統計

はじめに ROC曲線のAUCとも関係のあるらしいマン・ホイットニーのU検定についてメモ。マン・ホイットニーのU検定とは Mann-Whitney's U test ウィルコクソンの順序和検定も同等のため、マン・ホイットニー・ウィルコクソン(MWW)検定ともノンパラメトリック…

2013-09-23

ROC曲線メモ

機械学習

はじめに複数の分類器の性能を比較したりするときに利用されるROC曲線ついて、ちょっとメモ。 ROC曲線とは Receiver Operating Characteristic Curve 受信者操作特性曲線もとはレーダー技術で雑音の中から敵機の存在を検出するための方法として開発分類で…

2013-09-15

語義曖昧性解消メモ

自然言語処理

はじめに意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。語義曖昧性解消周りをちょっと調べたので、メモ。語義曖昧性解消(Word Sense Disambiguation)とは複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存…

2013-09-07

Random Projectionを試す

自然言語処理プログラミング

はじめに言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して…

2013-09-05

Label Propagationを試す

機械学習プログラミング

はじめに前から気になっていた、label propagationを試してみる。マルチエージェントとかの合意問題っぽい感じ？ Learning fron Labeled and Unlabeled Data with Label Propagation http://lvk.cs.msu.su/~bruzz/articles/classification/zhu02learning.p…

2013-09-01

DSIRNLP#4で発表させていただきました＆他の発表者の方の資料メモ

自然言語処理

9/1にVOYAGE GROUPさんで行われたDSIRNLP#4勉強会で発表させていただきました聴いていただいた方、ありがとうございました勉強会のページ http://partake.in/events/76854228-ba38-4f6e-87b9-f79e30add75c 発表資料 http://www.slideshare.net/phyllo/weig…

2013-08-04

liblinearで文書分類を試す

機械学習

はじめにデータ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用使用するデータ http://www.csie…