【Python】ブログ文書を形態素解析し、WordCloud表示する

前回の記事では、スクレイピングで自分のブログの文書を保存しました。

今回は形態素解析し、自分のブログでどの単語が頻出しているか調べてみます。

形態素解析

文章を意味の持つ最小の単位である形態素に分解します。

最初に、output.csv として出力した ブログ文章の出力データを取り込んでいきます。

1センテンスを、1行ずつデータフレームに格納できました。

Janomeを使用し、形態素解析してみます。

この部分は 初出の単語を辞書に登録し、数をカウントします。


頻出単語上位100位を表示してみます。

「こと」「の」「よう」などの あまり意味がない単語もカウントされてますね。

WordCloud

WordCloudで頻出単語を可視化します。

この部分は表示したくない単語と、フォントのPathを指定しています。

フォントファイルは、Mac: /Library/Fonts/~ , Windows: C:/Windows/Fonts/~ にある場合がほとんどのようです。

表示結果はこちら。

「サービス」「ポイント」などのブログの特徴を表す単語が頻出しています。


今回はブログ内の頻出単語を調べましたが、Twitter,青空文庫で小説内の頻出単語を調べても面白いですね。