Google Cloud Dataflow と Cloud Pub/Sub が正式リリース
2015年8月14日金曜日
* この投稿は、米国時間 8 月 12 日、Cloud Dataflow の PM である Eric Schmidt (not that Eric) と Cloud Pub/Sub の PM である Rohit Khare によって投稿されたものの抄訳です。
皆さんが今からこの投稿を読み終わるまでに、Google Cloud Platform のお客様は Cloud Dataflow、Cloud Pub/Sub、BigQuery を利用して、数億件のメッセージを処理し、数千 TB のデータを分析しているでしょう。これらの完全なマネージド サービスでは、従来のデータ処理システムに付き物だった運用の負担から解放されます。これらのサービスを利用すれば、ビジネスの成長に合わせたスケーリング、データ処理のレイテンシー低減に加え、効率的で信頼性の高いデータ処理が可能なプラットフォーム上にアプリケーションを構築できます。
お客様は日々 Google Cloud Platform を使って、たいへん重要なビジネスのビッグ データ処理ワークロードを実行しています。その中には金融詐欺の検出、ゲノミクス解析、在庫管理、クリックストリーム分析、A/B ユーザー インタラクション テスト、クラウドスケールの ETL(抽出、変換、ロード)などが含まれます。
Google はこのたび、“ベータ”の表示を外して Cloud Dataflow を正式にリリースしました。Cloud Dataflow は統合プログラミングモデルを用いて、バッチおよびストリーミング データソース用に別々のシステムを開発する煩雑さを解消することを目指しています。また Cloud Dataflow は、MapReduce、FlumeJava、Millwheel といった Google の 10 年以上にわたるイノベーションに基づいており、大規模クラスタの管理や最適化に関連する運用オーバーヘッドからユーザーを解放するように構築されています。
3. 優れたパフォーマンス。Cloud Dataflow は、MapReduce ベースのおなじみのパイプライン(PageRank や WordCount など)を評価した場合、Hadoop と比べて 2~3 倍高速で低コストです。また、動的なワーク リバランシングにより、Cloud Dataflow は効果的にリソース使用率を最適化します。これにより、人手が介在せずにパフォーマンスが一段と向上します。
4. 拡張可能な SDK。Google は技術パートナーを増やし、サードパーティー コネクタの拡充や、サービス プロバイダーによる統合の取り組みの広がりを促進しています。例えば、Tamr、Salesforce、Clearstory、springML、Cloudera、data Artisans との協業が進んでいます。また、Apache Spark 向けおよび Apache Flink 向けランタイム サポートを継続しています。
Google Cloud Platform における Cloud Storage、Cloud Datastore、BigQuery、Cloud Pub/Sub とのネイティブな統合。BigQuery ソースへのクエリが完全にサポートされます。また、Cloud Pub/Sub との統合により、到着時処理に加えてソース タイムスタンプ処理が行われます。開発者はソース タイムスタンプを、柔軟なウィンドウ生成機能やプリミティブなデータと組み合わせることで、より正確なデータ出力用のウィンドウを生成できます。
皆さんが今からこの投稿を読み終わるまでに、Google Cloud Platform のお客様は Cloud Dataflow、Cloud Pub/Sub、BigQuery を利用して、数億件のメッセージを処理し、数千 TB のデータを分析しているでしょう。これらの完全なマネージド サービスでは、従来のデータ処理システムに付き物だった運用の負担から解放されます。これらのサービスを利用すれば、ビジネスの成長に合わせたスケーリング、データ処理のレイテンシー低減に加え、効率的で信頼性の高いデータ処理が可能なプラットフォーム上にアプリケーションを構築できます。
お客様は日々 Google Cloud Platform を使って、たいへん重要なビジネスのビッグ データ処理ワークロードを実行しています。その中には金融詐欺の検出、ゲノミクス解析、在庫管理、クリックストリーム分析、A/B ユーザー インタラクション テスト、クラウドスケールの ETL(抽出、変換、ロード)などが含まれます。
Google はこのたび、“ベータ”の表示を外して Cloud Dataflow を正式にリリースしました。Cloud Dataflow は統合プログラミングモデルを用いて、バッチおよびストリーミング データソース用に別々のシステムを開発する煩雑さを解消することを目指しています。また Cloud Dataflow は、MapReduce、FlumeJava、Millwheel といった Google の 10 年以上にわたるイノベーションに基づいており、大規模クラスタの管理や最適化に関連する運用オーバーヘッドからユーザーを解放するように構築されています。
バッチおよびストリーム処理の統合コンピュテーション モデルを提供する Cloud Dataflow
Cloud Dataflow の正式リリースにより、以下のメリットが得られます
1. 完全に管理され、耐障害性と可用性が高く、SLA が適用されるバッチおよびストリーム処理サービス。
「私たちは Cloud Dataflow を利用して、私たちの現在の Hadoop クラスタが抱える弾力性の課題を克服しようと取り組んでいます。BigQuery にデータを取り込むための基本的な ETL ワークフローに適用するという形で使い始め、その後、本格的なクリックストリーム処理・分析に移行しました。そのおかげで、私たちのシステム全体のパフォーマンスが大幅に向上し、コストも削減できました」
Sudhir Hasbe, Zulily.com ソフトウェア エンジニアリング ディレクター
| |
「Qubit のリアルタイム データ サプライ チェーンの現行バージョンは、Google の MillWheel の論文で説明されていた画期的なストリーム処理の考え方に大いに触発されたものです。その原点に立ち返り、Cloud Dataflow 上でストリーミング パイプラインを構築できることをうれしく思います。Cloud Dataflow は約束されていたように、耐障害性と可用性が高いデータ処理システムとなっており、多様な機能を実現できる素晴らしく強力な API も用意されています」
Jibran Saithi, Qubit リードアーキテクト
|
2. 無秩序なデータを大量に処理する際に正確さ、レイテンシー、コストのバランスを取る包括的なモデル。これらの考え方が Cloud Dataflow のプログラミングモデルの主要要素を支えています。
「ストリーミングに対応する Google Cloud Dataflow は、Wix.com の時系列アナリティクス プラットフォームの要件に完全に適合しています。特に、Cloud Dataflow のスケーラビリティ、低レイテンシー データ処理、耐障害性の高いコンピューティングはぴったりです。Cloud Dataflow では、幅広いデータ群の変換およびグルーピング操作により、複雑なストリーム データ処理アルゴリズムを実装できます」
Gregory Bondar 博士, Wix.com データ サービス プラットフォーム担当シニア ディレクター
|
4. 拡張可能な SDK。Google は技術パートナーを増やし、サードパーティー コネクタの拡充や、サービス プロバイダーによる統合の取り組みの広がりを促進しています。例えば、Tamr、Salesforce、Clearstory、springML、Cloudera、data Artisans との協業が進んでいます。また、Apache Spark 向けおよび Apache Flink 向けランタイム サポートを継続しています。
「Google Cloud Platform との Salesforce Wave に関するコラボレーションは、私たちにとってエキサイティングな取り組みです。Google Cloud Dataflow との統合により、ビジネスユーザーに洞察を提供する Wave の機能がさらなる進化を遂げます。企業はマシン生成データのような多様で膨大なデータセットから、顧客に関する洞察をほぼリアルタイムで引き出せるようになります」
Olivier Pin, Salesforce.com Wave Analytics プロダクト管理担当 VP
| |
「Tamr と Google Cloud Dataflow は、人々がより簡単に社内の重要データや分散コンピューティング資産にアクセスして利用できるようにしてくれました。Google Cloud Platform 上での Cloud Dataflow と Tamr の組み合わせによって、企業は自社データをインターネットスケールで接続し、充実させることができます」
Andy Palmer, Tamr 共同創設者兼 CEO
|
Cloud Dataflow は、Google Cloud Platform やサードパーティーのサービスおよびデータストアとシームレスに統合されます
「Cloud Dataflow と Cloud Pub/Sub によって得られる生産性のメリットに非常に期待しています。これまで使ったところでは、例えば、以前に Spark を使って構築するのに 6 カ月以上かかったものを、半日で書き換えることができました」
Paul Clarke, Ocado 技術ディレクター
|
Google Cloud Pub/Sub も、Google におけるこの 10 年のイノベーションに支えられています。アルファ版とベータ版を試用したお客様のために 1 兆件のメッセージを送信したことが、Cloud Pub/Sub のパフォーマンスのチューニング、v1 API の改良、各種機能の基盤としての安定稼働の確保に役立ちました。Cloud Pub/Sub は、Cloud Dataflow のストリーミング取り込み、Cloud Logging のストリーミング エクスポート、Gmail のプッシュ API、Cloud Platform のお客様が行う本番ワークロードのストリーミングの基盤として機能し、このワークロード ストリーミングのメッセージ オペレーションは 1 秒当たり最大 100 万回に上ります。
こうした多様なシナリオは、Cloud Pub/Sub が、よりシンプルかつ堅牢で柔軟なアプリケーションの作成を支援する 1 つのグローバルなマネージド サービスであり、信頼性の高いリアルタイム メッセージングを実現するように設計されていることを示します。
Cloud Pub/Sub は、開発者が作成したサービスを相互に、また Google API やサードパーティーのサービスと接続します
Cloud Pub/Sub はアプリケーションやサービスの信頼性の高い統合に加え、ビッグ データ ストリームのリアルタイム分析に役立ちます。従来のアプローチでは、キューイング、通知、ロギングの各システムが必要で、それぞれに固有の API があり、耐久性、可用性、スケーラビリティがトレードオフの関係にありました。Cloud Pub/Sub は 1 つの API で広範なシナリオに対応しており、前述のようなトレードオフがないマネージド サービスであり、ビジネス規模に応じて経済的に利用できます。料金は、所定の使い方で 100 万メッセージ オペレーションにつき 5 セントです。
正式リリースは重要なマイルストーンですが、ゴールに到達したというわけでは決してありません。私たちは引き続きイノベーションに取り組んでおり、gcloud pubsub ツールのアルファ版や、新しい Identity and Access Management (IAM) API、Google Developers Console の Permissions Editor の各ベータ版をこのほどリリースしたばかりです。これらにおける改良により、ユーザーは特定のトピックやサブスクリプションに対して特定の操作のレベルでアクセスを制御できます。IAM ACL は、複数の Cloud Platform プロジェクトを社内で、あるいはサードパーティー サービスと接続しやすくします。
始めましょう
私たちは、開発者や企業がビッグデータに関する Google の技術上および運用上の専門知識やノウハウを活用できるように支援を続けており、Google Cloud Platform の今後の展開を楽しみにしています。Cloud Dataflow サイトや Cloud Pub/Sub サイトをご覧いただいて、ぜひ知識を深めてください。そしてフィードバックや、新しいコネクタのアイデア、あるいは私たちに広めてほしい新しいパブリックデータフィードもお知らせください。
- Posted by Eric Schmidt (not that Eric), PM Cloud Dataflow & Rohit Khare, PM Cloud Pub/Sub
0 件のコメント :
コメントを投稿