Apache FlumeとSpark Streamingの統合について

まいど、Kouです。

Web Serverのアクセスログをリアルタイムストリーミング分析するというのはよくある利用シーンだと想定されます。今回の記事は、Apache Flumeと呼ばれるログ収集基盤とE-MapReduceクラスターのSpark Streaming分析基盤の合手法について、ご説明させて頂きたいと思います。

“Apache FlumeとSpark Streamingの統合について”の続きを読む

この記事をシェアする

Sqoopを用いてE-MapReduceにデータを取り込む

こんにちは、Kouです。

既存のSQLテーブルに蓄積された情報をHadoopにインポートするため、Sqoopと呼ばれるツールがよく使われています。今回の記事は、E-MapReduceのHadoopクラスターとRDSまたはオンプレミスDBの間のデータインポートについて、ご説明させて頂きたいと思います。

“Sqoopを用いてE-MapReduceにデータを取り込む”の続きを読む

この記事をシェアする

E-MapReduceでHiveの動的パーティションについて

こんにちは、Kouです

E-MapReduceを利用し、HiveQLでのSELECT文の実行は、テーブルに含まれる全データをスキャンします。WHERE句を指定し、特定の条件に合致するデータを抽出する場合、大量のデータを読み込んだにも関わらず、ごく一部のデータしか利用しないケースが想定されます。例えば、時系列にならんだログデータを集計する場合、特定の日にちのデータのみを集計したい時に、すべてのデータの日にちのデータをスキャンするのは明らかに無駄だと言えます。

そこで、特定の条件で分割して、パーティションとの単位でデータを保存しておく方法が推薦されます。今回の記事は、E-MapReduceでHiveの動的パーティションの利用方法について、皆さんにご紹介させて頂きたいと考えております。

“E-MapReduceでHiveの動的パーティションについて”の続きを読む

この記事をシェアする