2011-09-22から1日間の記事一覧

計量文献学

計量文献学とは? 文献の特徴を数値化→統計的にその文献の分析・比較を行う方法または学問 「書き手によって文章に現れる言葉は違うのではないか?」に注目 文体(文章などのスタイル、和文・漢文、ですます・である調など)に注目=計量文体学 著者が同じ人か…

c++でUTF8

はじめに 以前、g++で日本語処理をするという記事を書いたけど、できるだけ環境に依存せずにUTF8で書かれた文章を処理したい。 調べてみると、UTF8は文字の最初のbyteを見れば何バイトの文字なのかがわかるので、簡単なラッパーを作った。 UTF8の仕様 http:/…