Apache FlumeとSpark Streamingの統合について

まいど、Kouです。

Web Serverのアクセスログをリアルタイムストリーミング分析するというのはよくある利用シーンだと想定されます。今回の記事は、Apache Flumeと呼ばれるログ収集基盤とE-MapReduceクラスターのSpark Streaming分析基盤の合手法について、ご説明させて頂きたいと思います。

“Apache FlumeとSpark Streamingの統合について”の続きを読む

この記事をシェアする

Sqoopを用いてE-MapReduceにデータを取り込む

こんにちは、Kouです。

既存のSQLテーブルに蓄積された情報をHadoopにインポートするため、Sqoopと呼ばれるツールがよく使われています。今回の記事は、E-MapReduceのHadoopクラスターとRDSまたはオンプレミスDBの間のデータインポートについて、ご説明させて頂きたいと思います。

“Sqoopを用いてE-MapReduceにデータを取り込む”の続きを読む

この記事をシェアする

E-MapReduceでHiveの動的パーティションについて

こんにちは、Kouです

E-MapReduceを利用し、HiveQLでのSELECT文の実行は、テーブルに含まれる全データをスキャンします。WHERE句を指定し、特定の条件に合致するデータを抽出する場合、大量のデータを読み込んだにも関わらず、ごく一部のデータしか利用しないケースが想定されます。例えば、時系列にならんだログデータを集計する場合、特定の日にちのデータのみを集計したい時に、すべてのデータの日にちのデータをスキャンするのは明らかに無駄だと言えます。

そこで、特定の条件で分割して、パーティションとの単位でデータを保存しておく方法が推薦されます。今回の記事は、E-MapReduceでHiveの動的パーティションの利用方法について、皆さんにご紹介させて頂きたいと考えております。

“E-MapReduceでHiveの動的パーティションについて”の続きを読む

この記事をシェアする

MaxComputeでJSONデータの扱い方

こんにちは、Kouです。

まだご存じの方が少ないかと思いますが、DataWorks 2.0には、JSONデータへのサポートが強化され、JSONドキュメントの処理及び分析が楽となります。IoTやWebアプリケーションなど、さまざまなデータソースから出力するログの形式がJSONで、Log Serviceが収集したJSONデータをどのように加工するのかという質問が見えてくるので、今回の記事は、OSSへ事前にアップロードしたJSONドキュメントを例として、MaxComputeでJSONドキュメントの扱い方について、皆さんご紹介させて頂きたいと思います。

“MaxComputeでJSONデータの扱い方”の続きを読む

この記事をシェアする

E-MapReduceのMetaServiceについて

こんにちは、Kouです。

今回の記事はアリババクラウドのビッグデータ処理サービスE-MapReduceについて、触れさせていただきたいと思います。

E-MapReduceは2.1.0 versionから、MetaServiceと呼ばれる機能をサポートするようになりましたが、業務上まだ利用されたことがない方がいらっしゃっるかと思いますので、その機能が一体なにできるのかを皆んさんに共有させて頂きたいです。 “E-MapReduceのMetaServiceについて”の続きを読む

この記事をシェアする

MaxCompute SQLでデータ更新と削除する方法

Kouです。

既にご存じの方もいらっしゃると思いますが、MaxCompute SQLでは、データ更新(Update)と削除(Delete)をサポートしません。ただ、実際の業務の中で必要なケースも存在しています。そのケースに遭遇した場合にどうすればいいのでしょうか。本記事で実際の例を交えながら、対策を皆さんに共有させて頂きたいと思います。 “MaxCompute SQLでデータ更新と削除する方法”の続きを読む

この記事をシェアする

PAIでプログラミング不要の機械学習を試す!

こんにちは、ソリューションアーキテクトのKouです。最近PAIでの深層学習などの投稿が増えてきました、ご覧頂いていますでしょうか。それとは別に、伝統的な機械学習の場合ではどうなりますでしょうか。今回の記事は伝統的な機械学習に焦点を絞り、PAIでの機械学習の手法を紹介させて頂きたいと思います。

機械学習といえば、自前でPythonやR言語を使って、複雑なデータの前処理とか、予測モデルの学習などのイメージが多いではないでしょうか。実は世の中の沢山のパブリッククラウドサービスと同じように、機械学習のクラウドサービスを活用すると、今までの煩雑な作業が楽になれます。

さて、今回はAlibaba Cloudの機械学習プラットフォーム(PAI)について、色々内訳の便利な機能を皆さんに紹介させて頂きたいと思います。

“PAIでプログラミング不要の機械学習を試す!”の続きを読む

この記事をシェアする

データサイエンスコンペ TianChiに挑む!(PyODPSでデータ処理編)

こんにちは。ソリューションアーキテクトのkouです。以前TianChiの紹介編実践編をご紹介させて頂きましたが、今回TianChiシリーズの最終編(データ処理)に関して、まとめていきたいと思います。

過去の記事は以下の通りです。

データサイエンスコンペ TianChiに挑む!(紹介編)

データサイエンスコンペ TianChiに挑む!(実践編)

“データサイエンスコンペ TianChiに挑む!(PyODPSでデータ処理編)”の続きを読む

この記事をシェアする

データサイエンスコンペ TianChiに挑む!(実践編)

こんにちは。ソリューションアーキテクトのkouです。前回TianChiの紹介編の話をさせて頂きましたが、今回は実際のコンぺを交えながら、データのダウンロード・前処理・訓練・予測・提出までの一連の流れをご紹介させて頂きたいと思います。
“データサイエンスコンペ TianChiに挑む!(実践編)”の続きを読む

この記事をシェアする