2013-01-01から1年間の記事一覧

助詞メモ

はじめに 日に日に日本語がわからなくなっていっているので、助詞についてメモしておく。 細かい部分は各文法・体系や、使うときの都合によると思うので、ここでは大雑把に。 助詞とは 品詞の一つ 単語の文法的な性質による分類が「品詞」 助詞は、述語につ…

やる夫が(インライン)アセンブラを使って競技プログラミングに挑戦するようです

この記事はCompetitive Programming Advent Calendar Div2013の9日目の記事です。今年も、競技プログラミングでほとんど役に立たないネタをお送りします。 1:名無しのターゲットさん:2013/12/9(月) 00:25:07 id:jetbead ! | !l |! ! | ! | ! l | ! l |! | …

ランダムフォレストで遊ぶ

はじめに 簡単だけど性能がよく、様々な実装が公開されていてマジでパナいと噂の、ランダムフォレストで遊んでみる。 ランダムフォレストとは Breimanによって発展改良された、複数の相関の低い決定木を組み合わせる集団学習の一つ 詳細な紹介や内容は「参考…

ロジスティック回帰で分類を試す

はじめに そういえばliblinearよく使うのにロジスティック回帰自分で書いた事ないなぁと思ったので、ちょっと書いてみた。 詳しい解説記事 とてもいい感じの連載がされている。 http://gihyo.jp/dev/serial/01/machine-learning L1/L2正則化については以下も…

文書分類メモ

はじめに 文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とは テキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付…

疎行列の格納方式メモ

はじめに 巨大だけどほとんどの要素がゼロであるような疎行列は、そのまま保持するより、要素がゼロじゃないところだけをうまく保持する事でメモリや計算量を減らせたりする。 扱う行列のタイプによって、効率のよい形式がいくつかあるようなので代表的なも…

liblinearモデルファイルのフォーマットを確認

はじめに ちょっと気になったので、liblinearで扱われているモデルのフォーマットについて確認する。 言語処理などで高次元なものを扱う場合、線形カーネル(ただの内積)を扱った方が精度がよい場合が結構あるので、自力でモデルファイルをパースできるように…

AutoEncoderで遊ぶ

はじめに 次元圧縮がマイブーム化しているので、最近はやりのAutoEncoderで遊んでみる。 べ、別に深い何かのためにやろうとしてるわけじゃn AutoEncoderとは 入力と出力が近くなるように学習するニューラルネットワーク (枠組みをさすだけでニューラルネット…

逐次確率比検定を試す

はじめに あらかじめ標本サイズを決めるのではなく、十分と判断されるまでダイナミックに判断を繰り返す逐次確率比検定を参考に、 チョコボールの銀のエンジェルの出現確率について判断するとどうなるか試してみる。 逐次確率比検定とは ベイズ統計学の枠組…

標本抽出メモ

はじめに 大量(または無限)のデータがあっても、人が確認するだとか、1つのデータあたりのなんらかのコストが高い場合、少量のデータを選んで利用する事が多い。(大量に収集されたログデータの分析をするとか、あるプログラムのパフォーマンスを見るために速…

Mann-WhitneyのU検定メモ

はじめに ROC曲線のAUCとも関係のあるらしいマン・ホイットニーのU検定についてメモ。 マン・ホイットニーのU検定とは Mann-Whitney's U test ウィルコクソンの順序和検定も同等のため、マン・ホイットニー・ウィルコクソン(MWW)検定とも ノンパラメトリック…

ROC曲線メモ

はじめに 複数の分類器の性能を比較したりするときに利用されるROC曲線ついて、ちょっとメモ。 ROC曲線とは Receiver Operating Characteristic Curve 受信者操作特性曲線 もとはレーダー技術で雑音の中から敵機の存在を検出するための方法として開発 分類で…

語義曖昧性解消メモ

はじめに 意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。 語義曖昧性解消周りをちょっと調べたので、メモ。 語義曖昧性解消(Word Sense Disambiguation)とは 複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存…

Random Projectionを試す

はじめに 言語処理を行う場合、単語数を考えると高次元スパースなベクトルを扱うことが多い。 次元削減を行える手法の一つである、Random Projectionを試してみる。 Random Projectionとは 乱数を要素に持ち、各列ベクトルの大きさが1である行列Rを用意して…

Label Propagationを試す

はじめに 前から気になっていた、label propagationを試してみる。 マルチエージェントとかの合意問題っぽい感じ? Learning fron Labeled and Unlabeled Data with Label Propagation http://lvk.cs.msu.su/~bruzz/articles/classification/zhu02learning.p…

DSIRNLP#4で発表させていただきました&他の発表者の方の資料メモ

9/1にVOYAGE GROUPさんで行われたDSIRNLP#4勉強会で発表させていただきました 聴いていただいた方、ありがとうございました 勉強会のページ http://partake.in/events/76854228-ba38-4f6e-87b9-f79e30add75c 発表資料 http://www.slideshare.net/phyllo/weig…

liblinearで文書分類を試す

はじめに データ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用 使用するデータ http://www.csie…

n列目まででdiff

はじめに タブ区切りなどのファイルで、n列目までを考慮したdiffなどを取りたいけど、出力はその行のすべてを表示してほしい。 コマンドの組み合わせだけでやりたいけど、いい方法が思いつかない。。 コード とりあえず1列目だけでdiff。 #!/usr/bin/perl # …

TWCNB分類器を試す

はじめに テキスト分類でよく使われるNaive Bayesにはいくつかの厳しい仮定や条件があり、それによって性能が落ちてしまっている。 経験則をいれたりして性能を向上させたTWCNB分類器を試してみる。 多項モデルによるNaiveBayes l_MNB(d) = argmax_c{ log P(…

読みメモ

はじめに 音声合成とかに興味が出てきたい気がするので、日本語文の「読み」について簡単にメモ。でてこいやるき。 「読み」とは 日本語文は、ひらがな、カタカナ、漢字、アルファベット、数字、記号、、など様々な文字で構成される 特に「漢字」は、「音読…

KWICを試す

はじめに 形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。 単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりす…

トピックモデルメモ

はじめに トピックモデルについてメモ。 トピックモデルとは 文書は、何らかの話題について書かれていたりする 「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられる トピックモデルは、文書から「何らかの話題(=トピック)」を発見す…

SCWを試す

はじめに 分類器の決定版(?)的なSoft Confidence Weighted Learningを試してみた。 Soft Confidence Weighted Learningとは 2012年に提案された、各重みを正規分布と考え更新時にその分布が変わるようにしたConfidence Weighted(CW)関係のノイズに強くなっ…

Z algorithmで文字列探索を試す

はじめに 名前がかっこいい。 codeforcesにある解説を試してみる。 Z algorithmとは 文字列Sと部分文字列S[i..]の最長共通接頭辞数をZ[i]とし、すべてのiについて、それをO(n)で求めるアルゴリズム 単純な方法だとO(n^2) 1996,97年あたりにGusfieldによって…

Locality Sensitive Hashによる類似ベクトル検索を試す

はじめに 類似性が高いベクトルのハッシュ値が近い値になるようなハッシュ関数を使って、 類似するものを高速に検索することができるので、それを試してみた。 Locality Sensitive Hash 類似するデータが高確率で近い値になる(Locality-Sensitive)ハッシュ関…

ナイーブベイズで「日本」の読み分けを試す

はじめに 「日本」は、「にほん」と「にっぽん」どちらの読み方もできる。 しかし、読み分けが必要な場合も存在する。(東京の日本(にほん)橋と大阪の日本(にっぽん)橋、会社名、など)同型異音語や多義性解消だと、よく周辺文字を素性にして分類問題を解く、 …

時系列解析メモ

はじめに 時系列解析について、簡単にメモ。 時系列(time series)とは 時間の経過で変動する何かの数値の列 例:気象データ、株価、など 時系列解析は、このデータを統計解析すること 時系列の分類 連続時間・離散時間 時間間隔が連続的か、離散的(1時間おき…

MDS&文字列カーネルの可視化を試す

はじめに せっかく文字列カーネルで遊んでみたので、可視化も試してみる。 Multidimensional Scalingとは n個のm次元ベクトルについて、それらの距離のみが与えられる それらの距離をできる限り保存して低次元空間(1,2,3次元など)にマッピングする方法 通常…

文字列カーネルで遊ぶ

はじめに ちょっと、高次元特徴空間での2つの文字列の像の内積である文字列カーネルで遊んでみる。 文字列カーネルを類似度として使いたい。遊びなので、数式はちゃんと追ってない、、、 文字列カーネル 文字列に対するカーネル カーネルKは、入力空間Xから…

テキスト自動要約メモ

はじめに 前から気になっててほっといてた自動要約についてメモ。 文短縮とか試してみたい。 テキスト要約 与えられたテキストをより短いテキストに簡潔にまとめること 要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数) 要約の過程 以…