* この投稿は米国時間 8 月 10 日、Cloud Datalab Product Manager である Dinesh Kulkarni によって投稿されたもの(投稿はこちら)の抄訳です。



私たち Google は昨年、Google Cloud Datalab のベータ版をリリースしました。Cloud Datalab は、Google BigQuery や Google App Engine FlexGoogle Cloud Storage などの Google Cloud Platform サービスを利用して、大規模データの探索、分析、可視化を行う、使いやすいインタラクティブ ツールです。

Cloud Datalab は Jupyter(以前の IPython)をベースとしています。これを使用すれば、ユーザーは統計や機械学習のための豊富な既存パッケージを用いて、公開されているノートブックから学び、活発な Jupyter コミュニティで利用のコツを交換できます。

こうした Cloud Datalab には多くのお客様から強い関心が寄せられており、私たちはフィードバックに応え、いくつかの重要な変更を行いました。

そしてこのたび、私たちは Cloud Datalab のベータ版のアップデートをリリースしました。このアップデートは、まだ Google Cloud Platform を使っていないユーザーでも利用できます。これは以下によって実現されています。

  • ローカル マシン サポート : Cloud Platform に加えてローカル マシンでも実行できるようになりました。
  • TensorFlow サポート : オープンソースの機械学習フレームワーク TensorFlow を新たにサポートしました。TensorFlow は、ローカル マシンで試せると同時に、Cloud Platform サービスも利用できるように Google が開発したものです。

以下の例は、SQL、Python、可視化の組み合わせが、いかにデータ サイエンスをシンプルにするかを示しています。GitHub データや米ニューヨーク市のタクシー乗車状況を分析したものです。






データ探索のプロセスは機械学習で極めて重要です。次の例は、TensorFlow の機械学習モデル構築へのステップとして、世界の主要株式市場の株価指数の相関をどのように理解できるかを示しています。ローカルで実行できる Datalab のコンテナには、機械学習モデルのサンプル コードが含まれています。


また、新しいローカル実行オプションにより、個人ユーザー アカウントで BigQueryCloud Storage といったクラウド リソースにアクセスできます。クラウド ベースの実行のためのサービス アカウントを使えば、チーム環境と同じ高度なセキュリティが維持されます。

今回のベータ版のアップデートでは、共有やソースをより柔軟に管理することも可能です。独自のリモート Git リポジトリを設定したり、Google Drive の同期など、従来とは異なる同期メカニズムを使ってノートブックを共有したりできます。

ぜひ Cloud Datalab をお試しください。そして、感想や意見をお寄せください。フィードバックにお応えし、データ サイエンスや分析をさらにシンプルにするために、私たちはベストを尽くします。


- Posted by Dinesh Kulkarni, Cloud Datalab Product Manager