AnalyticDBのアーキテクチャ紹介

Hello,everyone, はくです。

AnalyticDBは、Alibabaによって独自に開発され、超大規模かつ中核事業によって検証されたPBレベルのリアルタイムデータウェアハウスです。2012年に初めてグループで適用されて以来、Eコマース、広告、娯楽など数多くのビジネスのデータオンライン分析をサポートして来ました。

AnalyticDBは、2014年に正式にAlibaba Cloudで販売開始しました。数年間の進化と革新を経て、「The Forrester WaveTM:CloudData Warehouse、Q4 2018」の調査レポートにより、Contendersクアドラントと評価されました。

全体アーキテクチャ

AnalyticDBは、Cloud Native Realtime Data Warehouseであり、マルチテナントをサポートしています。テナント間リソースを共有せず、各テナントは独立したモジュール(図のフロントノード、計算ノード、バッファノード)を持っています。サービス品質を保証するためにテナントが隔離されたのです。同時に、機能の整合性とコストの最適化の観点から、一連のクラスターレベルのサービスがあります(図の緑色の部分モジュール)。

以下は、各モジュールの詳細な説明です。

DBレベルコンポーネント

  • Front Node:JDBC、ODBCプロトコル層へのアクセス、認証と認可、SQLの解析、書き換え、パーティションアドレスルーティングとバージョン管理、オプティマイザ、実行計画、MPP計算のスケジューリングモジュールもフロントノードにあります。
  • Compute Node:MPP計算ワーカーモジュールとストレージモジュール(行と列、メタデータ、インデックス)を含みます。
  • Buffer Node:リアルタイムの書き込みを担当し、リアルタイムのデータサイズに基づいてインデックスの構築とマージを起動します。

クラスタレベルコンポーネント

  • Front Node:管理コンソール。
  • Management Console:メータリングや課金、インスタンスライフサイクル管理などの商品化機能を担当し、管理コンソールとサードパーティにOpenAPIとInnerAPIを提供するクラスタ管理サービス。
  • Global Meta Service:グローバルメタデータ管理。各DBにメタデータ管理サービスを提供しながら、パーティション割り当て、コピー管理、バージョン管理、分散DDLなどの機能を提供します。
  • Job Service:非同期ジョブスケジューリング機能を提供するジョブサービス。非同期ジョブには、インデックス構築、容量拡張、シームレスアップグレード、およびテーブルの削除と削除のためのバックグラウンド非同期データクリーンアップが含まれます。
  • Connector Service:外部データソース(図の右側部分)からAnalyticDBへのアクセスための接続サービス。
  • Monitoring & Alerting Service:監視とアラートサービスを提供します。
  • Resource Management Service:リソース管理サービス。作成、削除、DNS / SLBのマウント/アンロード、Scale Out/In、サービスヘルスチェック、バックアップ/復旧を担当します。

AnalyticDBのアーキテクチャは普段オンライン利用時に、特に意識する必要ありません。次回からはユーザ目線から、AnalyticDBをどう選定して、どう利用するかをご紹介します。

以上。

この記事をシェアする

分類とクラスタリングの区別

Hello,everyone, はくです。

データマイニングの初心者です。
データマイニングの知識不足で痛感があったため、データマイニングの学習をはじめました。

始まったばかりで、まだ体系的ご紹介できませんが、気になった点をメモ程度で共有します。

今回は分類とクラスタリングの区別を話します。

■Classification 分類

Wikiの解説によると、分類は複数の事物や現象を、何らかの基準に従って区分することによって体系づけること。そうして作られたグループをカテゴリという。

ポイントは「何らかの基準」です。

分類は必ず基準があります、基準は事前に決める必要があって、その基準でカテゴリを作ります。作ったカテゴリ数は基本変わらず、分析時に、各データはどのカテゴリに所属するかを判別します。

■Clustering クラスタリング

Google先生に聞くと、クラスタリングは、簡単にいうとデータなどの集合体を、機能やカテゴリごとに分けて集めることです。

分類と似ているよね。なかなか区別できなかったが、ポイントはカテゴリです。

分類は事前にカテコりを決めて、数は固定です。

クラスタリングはデータの特徴に従い、カテゴリを自動定義します。数は固定ではありません。

例で話すと、

1)銀行はAさんに対して、ローン審査を行って、許可するかどうかの場合、分類です。

→極論言えば、答えは「返済できる人」と「返済できない人」カテゴリしかないため

2)銀行は顧客価値を向上したく、顧客に相応しい金融商品を開発したい時、クラスタリング。

→どんな顧客群があって、その特徴はなんですかは不明のため。

以上。

この記事をシェアする