hadoopとか - OKIYUKI99 Blog

最近，データベースの分散処理技術について非常に流行ってる．

とりまググッて色々調べたことをメモる.

■背景
・インターネットの普及により大規模データが蓄積！

→データ処理の効率性が必要，分散並列化

・上記の解決方法

お金：大量のマシンで．パワープレイ．
並列プログラミング
- MPI(Message Passing Interface)
  - スパコンの世界の主流技術
- MapReduce
  - 大規模データ処理を行う問題に特化

■hadoop
・大規模分散計算フレームワーク
・オープンソースインフラストラクチャ

・googleの基盤ソフトウェアのクローン

・Yahoo ResearchのDoug Cutting氏が開発

・Javaで記述されている

しかし，"Hadoop Streaming"という拡張パッケージを用いて、C/C++・Ruby・Pythonなど言語と標準入出力を用いてMapReduce処理を書くことができる

・開発したYahooはもちろん，Facebook，IBM，Amazonも使用

・2011/7月現在，日本語の資料はほとんどない．

・Hadoopの特徴的な機能

■hBase
・hadoopの上に作られた大規模分散データベース

・Javaで記述されている

■MapReduce
・hadoopの上に作られた大規模データを大量のマシンで並列に処理するための分散計算フレームワーク．

・大量の情報を分解→必要な情報を抜き出して出力

・Mapフェーズで抽出された情報を集約→それに対して計算を行い，結果を出力

■Mahout
・Hadoop上で動く機械学習ライブラリ

・サポートする手法

■Pig
・大規模データセットを解析するためのプラットフォーム

■参考
・『CodeZine：Hadoop、hBaseで構築する大規模分散データ処理システム』

・『CodeZine：Hadoopのインストールとサンプルプログラムの実行』

・『グーグル発「Hadoop」，日本企業も利用へ』

・『Googleの基盤クローンHadoopについて-スライド』

・『Googleの基盤クローンHadoopについて-ビデオ』

・『MapReduceによる大規模データを利用した機械学習』

・『Rと並列化の現状について』