Hadoop徹底入門第二版 第一章ノート
このエントリはHaddop徹底入門の第一章の覚書です。
Hadoop徹底入門 第2版 オープンソース分散処理環境の構築
- 作者: 太田一樹,岩崎正剛,猿田浩輔,下垣徹,藤井達朗,山下真一,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2013/07/09
- メディア: 大型本
- この商品を含むブログ (5件) を見る
Hadoopとは
大量のデータを処理するための並列分散処理ソフトウェア
Hadoopの重要な構成要素
- 分散ファイルシステム
- 並列分散処理フレームワーク
-
- ふつうのサーバーで利用可能
- スケールアウトの向上性能に向く
-
- 低レイテンシなスピードが要求されるオンライン処理には向かない
Hadoopの起源
Hadoopの中身
Hadoopのコアになっている2要素
構成
- MapReduce
- 巨大なデータ集合を処理するためのプログラミングモデル
- 1つのジョブを独立したタスクの集合に分けて実行し、並列処理を実現
- Map処理:フィルタリング等
- Reduce処理:データの集約