主成分分析によるツイッターの発言解析 (4)

解析プログラムもだいぶ出来上がってきましたし、
パラメータの調整もだいぶコツをつかめて来ました、
ので報告を。


まず、単語の偏り(ある主成分)とそれらの単語のユーザの使用度(ユーザごとの主成分のスコア)です。
1つ目のグラフ横軸は全ユーザの発言中で出現する回数(多い順)、縦軸は主成分内の個々の単語の重要度?寄与率?を表しています。
2つ目のグラフ横軸はユーザごとの総発言回数、縦軸はこの主成分でのスコアを表しています。


1つ目のグラフから「ニコニコ」「動画」「β」が共によく使用され、
さらに「アイドル」「マスター」「ふる?」なども一緒に使用されることがそれなりにある、
ということが分かります。
2つ目のグラフから、(左方のユーザは総発言数が少なくあてにならないので、)
右上方にいるユーザは、これらの単語をよく使用するということをあらわしています。


また、別の主成分と、ユーザごとの主成分のスコアです。


3つ目のグラフから、上方の単語、食べ物に関する単語、が共によく使用されるということが分かります。
4つ目のグラフから、
右上方にいるユーザは、これらの単語をよく使用するということをあらわしています。


#用語を統一しないとわかりにくくなるなぁ