抽出型文章要約「LexRank」の実装と性能評価
やりたいこと
- 抽出型文章要約の仕組みと性能をざっくり知りたい
やったこと・わかったこと
- 「LexRank」の理論理解と実装
- 理論概要と計算方法の理解
- 羅生門(芥川 竜之介)を題材にした要約性能の評価
- 以下、主要人物の特徴的な行動(が書かれた文)を抽出できた
- 羅生門の上で老婆が死人の髪を抜く
- 下人が老婆の着物を剥ぎとり手荒く蹴とばす
- 白髪を倒にして老婆が門の下を覗きこむ
- 「重要単語が登場」かつ「多くの文と類似」する文を抽出することで、全文の主題となる内容を抽出できることがわかった
- 以下、主要人物の特徴的な行動(が書かれた文)を抽出できた
以下詳細
使用データ:図書カード:羅生門
実装コード:github.com
参考文献:論文翻訳: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization - MOXBOX