助詞メモ

はじめに日に日に日本語がわからなくなっていっているので、助詞についてメモしておく。細かい部分は各文法・体系や、使うときの都合によると思うので、ここでは大雑把に。助詞とは品詞の一つ単語の文法的な性質による分類が「品詞」助詞は、述語につ…

2013-12-09

やる夫が(インライン)アセンブラを使って競技プログラミングに挑戦するようです

この記事はCompetitive Programming Advent Calendar Div2013の9日目の記事です。今年も、競技プログラミングでほとんど役に立たないネタをお送りします。 1：名無しのターゲットさん：2013/12/9(月) 00:25:07 id:jetbead ! | !l |! ! | ! | ! l | ! l |! | …

2013-12-07

ランダムフォレストで遊ぶ

機械学習プログラミング

はじめに簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ詳細な紹介や内容は「参考…

2013-11-29

ロジスティック回帰で分類を試す

機械学習プログラミング

はじめにそういえばliblinearよく使うのにロジスティック回帰自分で書いた事ないなぁと思ったので、ちょっと書いてみた。詳しい解説記事とてもいい感じの連載がされている。 http://gihyo.jp/dev/serial/01/machine-learning L1/L2正則化については以下も…

2013-11-09

文書分類メモ

自然言語処理

はじめに文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とはテキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付…

2013-11-07

疎行列の格納方式メモ

プログラミング

はじめに巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なも…

2013-10-31

liblinearモデルファイルのフォーマットを確認

機械学習

はじめにちょっと気になったので、liblinearで扱われているモデルのフォーマットについて確認する。言語処理などで高次元なものを扱う場合、線形カーネル(ただの内積)を扱った方が精度がよい場合が結構あるので、自力でモデルファイルをパースできるように…

2013-10-11

AutoEncoderで遊ぶ

機械学習プログラミング

はじめに次元圧縮がマイブーム化しているので、最近はやりのAutoEncoderで遊んでみる。べ、別に深い何かのためにやろうとしてるわけじゃn AutoEncoderとは入力と出力が近くなるように学習するニューラルネットワーク (枠組みをさすだけでニューラルネット…

2013-10-05

逐次確率比検定を試す

確率統計

はじめにあらかじめ標本サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。逐次確率比検定とはベイズ統計学の枠組…

2013-10-05

標本抽出メモ

統計

はじめに大量(または無限)のデータがあっても、人が確認するだとか、1つのデータあたりのなんらかのコストが高い場合、少量のデータを選んで利用する事が多い。(大量に収集されたログデータの分析をするとか、あるプログラムのパフォーマンスを見るために速…

2013-09-28

Mann-WhitneyのU検定メモ

統計

はじめに ROC曲線のAUCとも関係のあるらしいマン・ホイットニーのU検定についてメモ。マン・ホイットニーのU検定とは Mann-Whitney's U test ウィルコクソンの順序和検定も同等のため、マン・ホイットニー・ウィルコクソン(MWW)検定ともノンパラメトリック…

2013-09-23

ROC曲線メモ

機械学習

はじめに複数の分類器の性能を比較したりするときに利用されるROC曲線ついて、ちょっとメモ。 ROC曲線とは Receiver Operating Characteristic Curve 受信者操作特性曲線もとはレーダー技術で雑音の中から敵機の存在を検出するための方法として開発分類で…

2013-09-15

語義曖昧性解消メモ

自然言語処理

はじめに意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。語義曖昧性解消周りをちょっと調べたので、メモ。語義曖昧性解消(Word Sense Disambiguation)とは複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存…

2013-09-07

Random Projectionを試す

自然言語処理プログラミング

はじめに言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して…

2013-09-05

Label Propagationを試す

機械学習プログラミング

はじめに前から気になっていた、label propagationを試してみる。マルチエージェントとかの合意問題っぽい感じ？ Learning fron Labeled and Unlabeled Data with Label Propagation http://lvk.cs.msu.su/~bruzz/articles/classification/zhu02learning.p…

2013-09-01

DSIRNLP#4で発表させていただきました＆他の発表者の方の資料メモ

自然言語処理

9/1にVOYAGE GROUPさんで行われたDSIRNLP#4勉強会で発表させていただきました聴いていただいた方、ありがとうございました勉強会のページ http://partake.in/events/76854228-ba38-4f6e-87b9-f79e30add75c 発表資料 http://www.slideshare.net/phyllo/weig…

2013-08-04

liblinearで文書分類を試す

機械学習

はじめにデータ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用使用するデータ http://www.csie…

2013-07-11

n列目まででdiff

プログラミング

はじめにタブ区切りなどのファイルで、n列目までを考慮したdiffなどを取りたいけど、出力はその行のすべてを表示してほしい。コマンドの組み合わせだけでやりたいけど、いい方法が思いつかない。。コードとりあえず1列目だけでdiff。 #!/usr/bin/perl # …

2013-07-02

TWCNB分類器を試す

自然言語処理機械学習プログラミング

はじめにテキスト分類でよく使われるNaive Bayesにはいくつかの厳しい仮定や条件があり、それによって性能が落ちてしまっている。経験則をいれたりして性能を向上させたTWCNB分類器を試してみる。多項モデルによるNaiveBayes l_MNB(d) = argmax_c{ log P(…

2013-06-09

読みメモ

自然言語処理

はじめに音声合成とかに興味が出てきたい気がするので、日本語文の「読み」について簡単にメモ。でてこいやるき。「読み」とは日本語文は、ひらがな、カタカナ、漢字、アルファベット、数字、記号、、など様々な文字で構成される特に「漢字」は、「音読…

2013-05-24

KWICを試す

自然言語処理

はじめに形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりす…

2013-05-16

トピックモデルメモ

機械学習自然言語処理プログラミング

はじめにトピックモデルについてメモ。トピックモデルとは文書は、何らかの話題について書かれていたりする「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられるトピックモデルは、文書から「何らかの話題(＝トピック)」を発見す…

2013-05-10

SCWを試す

機械学習プログラミング

はじめに分類器の決定版(？)的なSoft Confidence Weighted Learningを試してみた。 Soft Confidence Weighted Learningとは 2012年に提案された、各重みを正規分布と考え更新時にその分布が変わるようにしたConfidence Weighted(CW)関係のノイズに強くなっ…