2009-08-01から1ヶ月間の記事一覧
解析をする際に時間の要素も入れたらどうなるんだろうと思ってやってみた結果がこれです。 それぞれ、第一主成分、第二主成分です。 このグラフには時間の要素は表示していませんが、 第一主成分の上は時間に関係ない単語の集合、下はある単語の集合です。 …
解析プログラムもだいぶ出来上がってきましたし、 パラメータの調整もだいぶコツをつかめて来ました、 ので報告を。 まず、単語の偏り(ある主成分)とそれらの単語のユーザの使用度(ユーザごとの主成分のスコア)です。 1つ目のグラフ横軸は全ユーザの発…
単語の発言回数が多くなるほど、特徴量が大きくならないように修正。 まだまだ、グラフは改善の余地があります。
人の分類をするにも、身長や肌の色や体重といったようにいろいろな基準があるように、 確かにツイッターのユーザの分類はしてますが、いったいどういう基準で分類してるのですか? と疑問を持たれるかもしれませんが、その答えは以下です。 発言時において、…
ログの解析結果を見るための手頃なビューアがなかったのでとりあえず作りました。縦軸は偏向具合、横軸は発言回数です。 右に行くほど発言が多くなります。 偏向具合が上あるいは下に寄っているほど特異なユーザということになります。 また、発言回数が多く…