htmlのコンテンツ抽出

私の研究内容とは離れますが、後輩くんの研究のお手伝い。

 今回は"ExtractUniqueBlock"を使ってみた。
 htmlソースから本文を抽出するにはいくつかの方法があるけど、朝日新聞とかのニュース記事から本文のみを抽出するってなると正規表現を駆使しても結構きつかったり、何より汎用性が無かったりする。なのでこれを使うことに。

 必要なファイルをダウンロードして(モジュールで提供されてるから便利)、サンプル通りにまずは実行してみると、まぁずらーーーっと出てくるからちょっと謎。というか変なところで改行入れられたりで少し扱い辛い印象。

 てことで基本はサンプル通りのプログラムで、一度改行を除いた上でメモリ(変数)に保存。
 で、コンテンツの部分は、 タグというわけではないけどそれっぽいのでくくられている。けど、コンテンツの途中で改行されたりするから、改行を除いた上でメモリに保存する必要がある感じ。

 で、実行してみた。

 朝日新聞毎日新聞 : 割とよく取れる
 読売新聞      : むり

 という感じ。細かいところでミスが出てくるのは仕方ないので、これはちまちまと正規表現をかけて取り除いていけば良い感じ。特に後輩くんは新聞のニュースサイト限定なのでそこまでではないかなーと(頑張ってもらうけど。。。


 で、今回これを勉強してる過程で、CETRによるコンテンツ抽出もあった。これはめも。いずれちょっと色々いじってみよう



 自分の研究分野とは結構離れてるけど、根っこは同じNLPなので勉強になりますね。