Apache FlumeとSpark Streamingの統合について

まいど、Kouです。

Web Serverのアクセスログをリアルタイムストリーミング分析するというのはよくある利用シーンだと想定されます。今回の記事は、Apache Flumeと呼ばれるログ収集基盤とE-MapReduceクラスターのSpark Streaming分析基盤の合手法について、ご説明させて頂きたいと思います。

“Apache FlumeとSpark Streamingの統合について”の続きを読む

Sqoopを用いてE-MapReduceにデータを取り込む

こんにちは、Kouです。

既存のSQLテーブルに蓄積された情報をHadoopにインポートするため、Sqoopと呼ばれるツールがよく使われています。今回の記事は、E-MapReduceのHadoopクラスターとRDSまたはオンプレミスDBの間のデータインポートについて、ご説明させて頂きたいと思います。

“Sqoopを用いてE-MapReduceにデータを取り込む”の続きを読む

E-MapReduceでHiveの動的パーティションについて

こんにちは、Kouです

E-MapReduceを利用し、HiveQLでのSELECT文の実行は、テーブルに含まれる全データをスキャンします。WHERE句を指定し、特定の条件に合致するデータを抽出する場合、大量のデータを読み込んだにも関わらず、ごく一部のデータしか利用しないケースが想定されます。例えば、時系列にならんだログデータを集計する場合、特定の日にちのデータのみを集計したい時に、すべてのデータの日にちのデータをスキャンするのは明らかに無駄だと言えます。

そこで、特定の条件で分割して、パーティションとの単位でデータを保存しておく方法が推薦されます。今回の記事は、E-MapReduceでHiveの動的パーティションの利用方法について、皆さんにご紹介させて頂きたいと考えております。

“E-MapReduceでHiveの動的パーティションについて”の続きを読む

【番外編】Google Apps Script(GAS)のAPIでスプレッドシートにデータを書き込む

皆さんこんにちは。
去年から花粉症が発症し、憂鬱な時期を過ごしているSHUです。

今回は番外編となります。
たまたま業務でGoogle Apps Scriptを勉強する機会があったため、
社内でのGAS活用方法をご紹介したいと思います。

なお、Alibaba Cloudは関係しない内容のため、
ご興味がある方は読み進めていただければ幸いです。

 

1. なぜGAS?

当社はフリーアドレスで、毎朝手入力でシートマップに当日の座席位置を入力する必要がありましたが、手間だったのもあり、なかなか習慣付いておりませんでした。

そこで、シートマップ自体がGoogleスプレッドシートで作成されていたので、Google Apps Scriptを使って下記2つの機能を実装してみました。

今回は、サンプルスクリプトとともに、機能をご紹介いたします。

1. Gmailの自動メール
-> リマインダー

2. QRコード入力
-> 簡易入力インターフェース

 

“【番外編】Google Apps Script(GAS)のAPIでスプレッドシートにデータを書き込む”の続きを読む

MaxComputeでJSONデータの扱い方

こんにちは、Kouです。

まだご存じの方が少ないかと思いますが、DataWorks 2.0には、JSONデータへのサポートが強化され、JSONドキュメントの処理及び分析が楽となります。IoTやWebアプリケーションなど、さまざまなデータソースから出力するログの形式がJSONで、Log Serviceが収集したJSONデータをどのように加工するのかという質問が見えてくるので、今回の記事は、OSSへ事前にアップロードしたJSONドキュメントを例として、MaxComputeでJSONドキュメントの扱い方について、皆さんご紹介させて頂きたいと思います。

“MaxComputeでJSONデータの扱い方”の続きを読む

Kubeflow on Alibaba Cloud 第一回~JupyterHub環境を立ち上げる

CJNANです。

最近、主にDeep LearningをベースとしたAI技術が理論研究フェーズからビジネス業界への展開スピードがどんどん早くなるのを感じています。NAS(Neural Networks Search)のようなハイパパラメタの最適化を商用化したGCPのAutoMLやENAS(Effect NAS)をOSS化したAutoKerasが今後のDeep Learning手法の主なトレンドになれると思います。一方は、もっとビジネスサイドで応用できるための、開発環境やIaaS構成が求められてきて、これに着目したもう一つのOSSプロジェクト「Kubeflow」について、Alibaba Cloudでの実現方法を紹介します。

Kubeflowについて

簡単に言うとKubernetes上で簡単に機械学習用の環境を構築、管理できるようにしたものです。KuberflowはGoogleから開発したOSSで、Kuebrnetes(コンテナ化されたアプリケーションの展開やスケーリングおよび管理をおこなうオーケストレーションツール)の強大な機能を通じて、機械学習の開発からデリバリーまでの作業をもっと簡単に実現できるし、拡張性が良いサービスを実現することができます。KuberflowはKuernetesの環境であれば、すぐ実現できる特徴がありますので、Kubernetesユーザに対しても、導入コストが低い特徴があります。

“Kubeflow on Alibaba Cloud 第一回~JupyterHub環境を立ち上げる”の続きを読む

[運用小ネタ]RAMのパスワード再入力回数を設定して、アカウントロックを試してみる

皆さん、こんにちは。ソリューションアーキテクトのQ(@joe_qiubinbin)です。

今まで、下記運用小ネタをご紹介させていただきました。

① [運用小ネタ] RAMとECSのTag機能でECSインスタンスを保護する
② [運用子ネタ]「もう勘弁してよ、このECSインスタンを作ったのはだれ ?」と悩んでいる方へ

今回はRAMのアカウントロック関連のネタをご紹介します。

RAMアカウントは権限が絞られている状態で利用可能ですが、万が一パスワードクラッキングされ、乗っ取られた時の被害も少なくありません。RAMのパスワード再入力回数ポリシーを活用することによって、アカウントロックができるようになり、パスワードクラッキングさらる可能性を大幅に下げられます。

“[運用小ネタ]RAMのパスワード再入力回数を設定して、アカウントロックを試してみる”の続きを読む

AnalyticDBのアーキテクチャ紹介

Hello,everyone, はくです。

AnalyticDBは、Alibabaによって独自に開発され、超大規模かつ中核事業によって検証されたPBレベルのリアルタイムデータウェアハウスです。2012年に初めてグループで適用されて以来、Eコマース、広告、娯楽など数多くのビジネスのデータオンライン分析をサポートして来ました。

AnalyticDBは、2014年に正式にAlibaba Cloudで販売開始しました。数年間の進化と革新を経て、「The Forrester WaveTM:CloudData Warehouse、Q4 2018」の調査レポートにより、Contendersクアドラントと評価されました。

全体アーキテクチャ

AnalyticDBは、Cloud Native Realtime Data Warehouseであり、マルチテナントをサポートしています。テナント間リソースを共有せず、各テナントは独立したモジュール(図のフロントノード、計算ノード、バッファノード)を持っています。サービス品質を保証するためにテナントが隔離されたのです。同時に、機能の整合性とコストの最適化の観点から、一連のクラスターレベルのサービスがあります(図の緑色の部分モジュール)。

以下は、各モジュールの詳細な説明です。

DBレベルコンポーネント

  • Front Node:JDBC、ODBCプロトコル層へのアクセス、認証と認可、SQLの解析、書き換え、パーティションアドレスルーティングとバージョン管理、オプティマイザ、実行計画、MPP計算のスケジューリングモジュールもフロントノードにあります。
  • Compute Node:MPP計算ワーカーモジュールとストレージモジュール(行と列、メタデータ、インデックス)を含みます。
  • Buffer Node:リアルタイムの書き込みを担当し、リアルタイムのデータサイズに基づいてインデックスの構築とマージを起動します。

クラスタレベルコンポーネント

  • Front Node:管理コンソール。
  • Management Console:メータリングや課金、インスタンスライフサイクル管理などの商品化機能を担当し、管理コンソールとサードパーティにOpenAPIとInnerAPIを提供するクラスタ管理サービス。
  • Global Meta Service:グローバルメタデータ管理。各DBにメタデータ管理サービスを提供しながら、パーティション割り当て、コピー管理、バージョン管理、分散DDLなどの機能を提供します。
  • Job Service:非同期ジョブスケジューリング機能を提供するジョブサービス。非同期ジョブには、インデックス構築、容量拡張、シームレスアップグレード、およびテーブルの削除と削除のためのバックグラウンド非同期データクリーンアップが含まれます。
  • Connector Service:外部データソース(図の右側部分)からAnalyticDBへのアクセスための接続サービス。
  • Monitoring & Alerting Service:監視とアラートサービスを提供します。
  • Resource Management Service:リソース管理サービス。作成、削除、DNS / SLBのマウント/アンロード、Scale Out/In、サービスヘルスチェック、バックアップ/復旧を担当します。

AnalyticDBのアーキテクチャは普段オンライン利用時に、特に意識する必要ありません。次回からはユーザ目線から、AnalyticDBをどう選定して、どう利用するかをご紹介します。

以上。

Alibaba Cloudの香港リージョンと中国本土の接続性の話

こんにちは。技術部の吉村です。

今日のテーマは「中国本土向けWEBサイトを作る時に香港リージョンでWEBサイトをホスティングすると良い」という話です。

これは地理的な距離が近いこともありますが、Alibaba Cloud の強みであるバックボーンネットワークが良いからです。

詳しく見ていきましょう。

“Alibaba Cloudの香港リージョンと中国本土の接続性の話”の続きを読む