テキスト自動要約メモ
はじめに
前から気になっててほっといてた自動要約についてメモ。
文短縮とか試してみたい。
テキスト要約
- 与えられたテキストをより短いテキストに簡潔にまとめること
- 要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数)
要約の過程
- 以下の3つがある(とされている)
- 1.テキストの解析と理解
- 2.要約の内部表現への変換/変形
- 3.内部表現から要約テキストの生成
- ただし、これらをすべてきちんとやるのは難しい
- 人間の場合は、以下のような行為が行われているとか
- 不要句の削除
- 文の結合
- 構文的変形
- 句の言い換え
- 句の置き換え
- 文の並び替え
考慮すべき点
- 長さ
- ジャンル/分野
- 単一文/複数文
- なんのための要約か?利用方法
- 出力形式
重要文抽出
- テキストから重要な文を抜き出す要約手法
- なんらかの情報をもとに重要度を計算
- 要約率などの条件を満たすまで文を選択する
- 機械学習や確率値などによる自動決定も研究されている
なんらかの情報(素性)
- 単語の重要度(tf-idfなど)
- 文/段落中の位置
- タイトル
- 手掛かり表現(「まとめると」「要するに」「したがって」など)
- 文・単語間のつながり(類義語、関連語など)
- テキスト構造(推敲や例示、証拠、対比などの構造)
- など
考慮すべき点
- 照応詞、代名詞など
- 文のつながり
- 時制や態
- など
文短縮
- 重要でない部分を削ることでテキストを短くする要約手法
- 表現の言い換え(丁寧表現、体言止め)
- 構文構造を壊さないようなものを削る
- 重要度(固有名詞、タイトルに含まれる、否定表現など)による選択
- 従属節や連体修飾節などの削除
統計的な手法
- Witbrockら,"Ultra-Summarization: A Statistical Approach to Generating Highly Condensed Non-Extractive Summaries"
- Knightら,"Statistics-Based Summarization-Step One: Sentence Compression"
参考文献
- 奥村,難波「知の科学 - テキスト自動要約」
- テキスト自動要約に関するウェブページ
- http://ja.wikipedia.org/wiki/%E8%87%AA%E5%8B%95%E8%A6%81%E7%B4%84
- http://en.wikipedia.org/wiki/Automatic_summarization
- Jingら,"Cut and Paste Based Text Summarization"
- Dasら,"A Survey on Automatic Text Summarization"
- Guptraら,"A Survey of Text Summarization Extractive Techniques"