OKIYUKI99 Blog

データ分析や日常に関するブログ

Google Refineとか

クレンジングツールなんてあったとは….Google Refine便利そう.データ集めるのが簡単になるのかな.Webに載ってるデータをコピーして処理できるっぽい.詳しい解説ページないかな.日本語希望w■参考 『米Google、データクリーニングツール「Google Refine …

クラスタリングとか

「Rで学ぶクラスタ解析」を購入した.Rで学ぶクラスタ解析作者: 新納浩幸出版社/メーカー: オーム社発売日: 2007/11/01メディア: 単行本購入: 9人 クリック: 207回この商品を含むブログ (29件) を見る図書館で借りてパラパラと見ると良さ気だった. 何分,ク…

決定木とか

今更ながら決定木強っ!って思った.ランダムフォレストって今のところ最強の分類器じゃ….CHAIDとかC5.0とかCARTとか色々あるけど,どれ選べばいいのでしょうか?CARTはジニ係数使ってて,純度で分岐点を作る.純度が増す=ばらつきが少なくなるね.ランダ…

ggplot2とか

■感想 Rで流行してるものといえば,ggplotかと思い,サンプル動かしてみた.確かに綺麗に描画されるし,シンプルに使える.レイヤーのように後からポイポイ載せていくって感じ.『ggplot2 の自分用メモ集を作ろう』はかなり詳しく紹介してくれていました.■…

hadoopとか

最近,データベースの分散処理技術について非常に流行ってる.とりまググッて色々調べたことをメモる.■背景 ・インターネットの普及により大規模データが蓄積! Webページで考えると200億ページ×20KB = 400TB 世界で作成されたデータ量 2009年:0.8ZB 2020年…

ブログ開設

最近,世の中のマイニングの認知度を調べていると,R勉強会,Web Miningの勉強会を知った。社会人の人も多く,幅広い知識を持っている印象だった。自分もそんな場に参加したいと思い,学生の間に知識を貯めていくと決意。ここからスタート。あと学生は1年9…