2016-05-20から1日間の記事一覧

【Python】日本語Wikipediaのダンプデータから本文を抽出する

日本語Wikipediaのダンプデータ中の本文を利用したい。 ただ、単純にパースするだけではWiki記法の記号等が邪魔である。 というわけでWikipedia Extractorを利用して本文だけテキストとして抽出します。 Wikipedia Extractorの他にもパースするためのライブ…