AWSが機械学習のデータ準備サービス「SageMaker Data Wrangler」を公開

米国時間12月1日、AWSはデータサイエンティストが機械学習のトレーニングに使用するデータを簡単に準備できるようにする新しいサービスのAmazon SageMaker Data Wranglerを公開した。同社はこれに加えて、SageMaker Studioで利用でき、機械学習機能の命名、整理、発見、共有を簡単にする新しいサービスのSageMaker Feature Storeも公開した。

AWSはさらにSagemaker Pipelinesも公開した。こちらはプラットフォームの他の部分と統合される新しいサービスで、ワークフローを作って自動化できるように機械学習のCI/CDサービスを提供し、トレーニングデータや構成といったモデルコンポーネントの監査証跡も利用できる。

AWS re:InventカンファレンスのキーノートでCEOのAndy Jassy(アンディー・ジャシー)氏が指摘したように、機械学習の分野ではデータ準備が大きな課題として残っている。ユーザーはクエリやコードを書いてまずデータをデータストアから取得し、それからクエリを書いてコードを変換し、必要な機能と組み合わせる必要がある。これらはいずれもモデルを実際に構築する作業ではなく、モデルを構築する基盤の作業だ。

Data Wranglerにはあらかじめ構成されたデータ変換が300以上組み込まれていて、ユーザーはカラム型を変換したり足りないデータを平均値や中間値で補完したりすることができる。視覚化ツールもあり、潜在的なエラーを特定できるほか、モデルをデプロイする前にデータの不整合を見つけたり診断したりするツールにもなる。

このようなワークフローはすべてノートブックに保存したりスクリプトにしたりして複製できる。またSageMaker Pipelinesでワークフローの自動化に利用される。

同様の問題に取り組んでいるスタートアップがいくつもあることには注目したい。結局のところ、機械学習のデータの扱いはこの分野で最もよくある問題の1つだ。しかし大半の企業は今も独自のツールを作っているため、マネージドサービスの登場には適したタイミングだ。

カテゴリー:ネットサービス
タグ:AWS re:InventAWSAmazon機械学習

原文へ

(翻訳:Kaori Koyama)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。