テキスト自動要約メモ

はじめに

前から気になっててほっといてた自動要約についてメモ。
文短縮とか試してみたい。

テキスト要約

  • 与えられたテキストをより短いテキストに簡潔にまとめること
  • 要約率 = (要約後の文字数or文数) / (与えらえたテキストの文字数or文数)
要約の過程
  • 以下の3つがある(とされている)
    • 1.テキストの解析と理解
    • 2.要約の内部表現への変換/変形
    • 3.内部表現から要約テキストの生成
  • ただし、これらをすべてきちんとやるのは難しい
  • 人間の場合は、以下のような行為が行われているとか
    • 不要句の削除
    • 文の結合
    • 構文的変形
    • 句の言い換え
    • 句の置き換え
    • 文の並び替え
考慮すべき点
  • 長さ
  • ジャンル/分野
  • 単一文/複数文
  • なんのための要約か?利用方法
  • 出力形式

重要文抽出

  • テキストから重要な文を抜き出す要約手法
    • なんらかの情報をもとに重要度を計算
    • 要約率などの条件を満たすまで文を選択する
  • 機械学習や確率値などによる自動決定も研究されている
なんらかの情報(素性)
  • 単語の重要度(tf-idfなど)
  • 文/段落中の位置
  • タイトル
  • 手掛かり表現(「まとめると」「要するに」「したがって」など)
  • 文・単語間のつながり(類義語、関連語など)
  • テキスト構造(推敲や例示、証拠、対比などの構造)
  • など
考慮すべき点
  • 照応詞、代名詞など
  • 文のつながり
  • 時制や態
  • など

文短縮

  • 重要でない部分を削ることでテキストを短くする要約手法
    • 表現の言い換え(丁寧表現、体言止め)
    • 構文構造を壊さないようなものを削る
    • 重要度(固有名詞、タイトルに含まれる、否定表現など)による選択
      • 従属節や連体修飾節などの削除
統計的な手法

参考文献