かねてからGoogle Cloud StorageはHadoopに対応しており、デベロッパはデータをここに置くことによって、分散コンピューティングによる高度なデータ分析ができる。そして今日(米国時間1/14)Googleは、新たなコネクタをリリースして、Google Cloud Platform上でのHadoopの利用が、より容易にできるようにした。
クラスタやファシステムの管理をそのGoogle Cloud Storage connector for Hadoop(HadoopのためのGoogle Cloud Storageコネクタ)がデベロッパに代わって行うので、デベロッパは物理レベルの面倒な管理業務から解放され、データの処理に専念できる。
Googleが2003年に開発したGoogle File Systemは、今ではHadoopの土台だ。HadoopはApache Software Foundation(通称Apache)が管理するオープンソースの分散コンピューティング環境で、データをサーバのクラスタ上に分割分散して分散処理によるデータ分析を行う。今ではHadoopのまわりに、多様なソフトウェアやサービスから成るエコシステムが形成され、ClouderaやHortonworksなど多くの企業がそれを支えている。
Google Connector for Hadoopは、Googleの最新のクラウドストレージシステムColossusを使用する。また、シンプルなコネクタライブラリを使用して、Hadoopに直接Google Cloud Storageへアクセスさせ、データ処理を行わせる。
Googleは、このコネクタの利点をいくつか挙げている。HadoopのクラスタをGoogle Cloud Storageが一か所で管理するので、デベロッパはHadoopの使用をすぐに開始できる。Google本体のスケーラビリティを利用するので、可利用性がつねに高い。データのコピーを持つ必要がないので経費節約になる…つまり、バックアップ用にコピーを作るなどは、Google Cloud Storage自身が勝手にやってくれる。
今やHadoopは、ビッグデータ分析の分野における主流派だ。先月の記事でも書いたように、Hadoopは、Twitterなど、毎日ペタバイトのオーダーでデータを処理するインターネット企業にとって欠かせない技術だ。また一般企業でも、処理する情報量の爆発的な増大とともに、やはりHadoopを利用せざるをえなくなっている。
しかしHadoopを本格的かつ有効に利用するためには複雑な技術課題が多く、高度な経験知識をもった技術者を何人も必要とする。そこで今回のGoogle Cloud Storage Connector for Hadoop(Hadoop用のGoogle Cloud Storageのコネクタ)のようないわば‘仮想技術者’がいろいろ登場することによって、Hadoopを誰もが気軽に使えるものに、していく必要があるのだ。
[原文へ]
(翻訳:iwatani(a.k.a. hiwa))