主成分分析によるツイッターの発言解析(6)

前回と変更点は以下の通りです。
形態素解析エンジンに、「リア充」などの単語を追加
・つぶやきログを自分のフォローしている人だけに変更


結果はといいますと以下のような感じです。
上、横軸は単語をソートして並べただけなのであまり意味は無いです、縦軸はこの成分での重要度です。
下、横軸はユーザごとの発言回数、縦軸はその成分でのスコアです。
「薬」「飲む」を多く発言するユーザの分布になっています。


続きましては、「実家」「忘れる」を多く発言するユーザの分布になっています。


どの成分でも、ある単語だけの重要度が飛び出るということはなく、どういう単語の集合なのか分類できない場合もあります。


ツイッターの発言から、ユーザを分類するのはこれぐらいが限度なのかという感じです。
もし、アニメ・ゲームなどのクラスタでより綺麗に分類しようとするならば、
IPCAの学習過程で、アニメ用単語集、ゲーム用単語集を用意しなければならないのですが、
そんな単語集どこに落ちてるんだろう、落ちていたとしても妥当なんだろうか、という新しい難しい問題が出てきます。
まあ、時間があったら考えてみます。