AdaDeltaを試す

機械学習プログラミング

はじめに勉強会で、学習率を改善(自動調整)する事で学習時間を短縮し、ファンタジスタドールを見る時間を多く確保できる事が示されていた。 AdaGrad等をさらに改良したらしいAdaDeltaがあるようなので、ロジスティック回帰に適用してみた。 AdaDeltaとは M.…

2014-11-19

ベータ分布のquantile

統計プログラミング

はじめに boostには、確率分布のquantile(分位数、分布をp:1-pに分割する点)を計算するものが用意されている。ベータ分布の場合について、自分でも書いてみる。コード #include <iostream> #include <cmath> //#include <boost/math/distributions/beta.hpp> class BetaDistribution { double eps; double val_a</boost/math/distributions/beta.hpp></cmath></iostream>…

2014-11-06

Feature Hashingを試す

機械学習自然言語処理プログラミング

はじめに Feature Hashingについて気になったことがあったので試してみた。 Feature Hashingとは Hashing trick ハッシュ関数を使って、素性群をM次元ベクトルにする一種の次元圧縮 Bag of wordsなどの素性をそのままハッシュ値にすることで、素性とIDのペ…

2014-10-15

Friedman testとNemenyi testメモ

統計

はじめに複数のアルゴリズムの結果の有意差検定に使用されていたので、メモ。より詳細に紹介されているのは以下の論文。 Demsar, Statistical Comparisons of Classifiers over Multiple Data Sets, 2006 http://jmlr.csail.mit.edu/papers/volume7/demsar0…

2014-10-12

DSIRNLP#6で発表させていただきました＆懺悔とNaiveBayes教入信

機械学習

DSIRNLP#6 10/11にデンソーアイティーラボラトリさんで行われたDSIRNLP#6勉強会で発表させていただきました聴いていただいた方、ありがとうございました。勉強会のページ http://partake.in/events/38e416b0-5e64-4bd4-8388-4e19acd0ef97 発表資料一部、…

2014-09-16

NBSVMを試す

機械学習自然言語処理プログラミング

はじめに S. Wang & C. D. Manning, Baselines and Bigrams: Simple, Good Sentiment and Topic Classificatioin Naive Bayes素性を利用したSVM(NBSVM)なるものを試してみる。 SVM with NB features(NBSVM) Log-count ratio r = log( (p / ||p||_1) / (q / |…

2014-09-05

Interpolation Search

プログラミング

Interpolation Searchとは補間探索、内挿探索二分探索での範囲の中間値を利用する代わりに、範囲の両端の値から探したい値の位置にあたりをつけて、その値を利用して探索していく方法二分探索では、配列の値に関係なく範囲の中間の値を利用して探索探索…

2014-07-31

マルチラベル分類メモ

機械学習

はじめに G. Tsoumakas, I. Katakis, I. Vlahavas., Mining Multi-label Data http://lpis.csd.auth.gr/paper_details.asp?publicationID=290 マルチラベル分類問題について、メモ。マルチラベル分類問題 1つの事例が、複数のラベル(ラベルの集合)に同時に…

2014-07-15

Graph of Word、TW-IDFとTFのnormalizationメモ

自然言語処理

はじめに Rousseau et al., Graph-of-word and TW-IDF: New Approach to Ad Hoc IR http://www.lix.polytechnique.fr/~rousseau/papers/rousseau-cikm2013.pdf 文書dのグラフ的表現とそこから計算されるTW-IDFというTermの重み付けについて、メモ。 Graph of…

2014-05-31

編集距離で遊ぶ

自然言語処理プログラミング

はじめに簡単な例としてよく出てくる「編集距離」を使って、英単語の修正を試してみる。(編集距離が小さいものを列挙するまで) dpができなすぎるので、「dpやるだけ」って言えるようになりたい。編集距離とはある文字列sからある文字列tへ、文字の削除、…

2014-04-29

単語の数学的表現メモ

自然言語処理

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、…

2014-04-01

日猫/猫日翻訳を試す

misc. プログラミング

はじめに先日北海道で行われたNLP2014(Neko Language Processing 2014)で最優秀賞だった「ビットペア法を用いた日本語-猫語翻訳アルゴリズム」を試してみました。ネコ氏の鳴き声を分析したところ特徴的なパターンが見られ、日本語とネコ語間の変換ルールを…

2014-03-23

ナップサック問題として複数文書要約を解くを試す

自然言語処理プログラミング

はじめに複数文書要約をナップサック問題として解く、という話を聴いて、簡単に試せそうなのでやってみる。手法西川ら「冗長性制約付きナップサック問題に基づく複数文書要約モデル」 https://www.jstage.jst.go.jp/article/jnlp/20/4/20_585/_pdf上記の…

2014-03-01

EntityLinkingメモ

自然言語処理

はじめに WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。次元圧縮！ Entity Linkingとはテキストに出てくるエンティティ(実体)を識別・決定するタスク固有名詞抽…