Tanoのブログ

データを集めて,世の中のことを知ろうと思う

抽出型文章要約「LexRank」の実装と性能評価

やりたいこと

  • 抽出型文章要約の仕組みと性能をざっくり知りたい

やったこと・わかったこと

  • 「LexRank」の理論理解と実装
    • 理論概要と計算方法の理解 f:id:Tano:20210725212336j:plain
  • 羅生門(芥川 竜之介)を題材にした要約性能の評価
    • 以下、主要人物の特徴的な行動(が書かれた文)を抽出できた
      • 羅生門の上で老婆が死人の髪を抜く
      • 下人が老婆の着物を剥ぎとり手荒く蹴とばす
      • 白髪を倒にして老婆が門の下を覗きこむ
    • 「重要単語が登場」かつ「多くの文と類似」する文を抽出することで、全文の主題となる内容を抽出できることがわかった f:id:Tano:20210725212359p:plain

以下詳細

使用データ:図書カード:羅生門

実装コード:github.com

参考文献:論文翻訳: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization - MOXBOX