米国時間12月1日、AWSはデータサイエンティストが機械学習のトレーニングに使用するデータを簡単に準備できるようにする新しいサービスのAmazon SageMaker Data Wranglerを公開した。同社はこれに加えて、SageMaker Studioで利用でき、機械学習機能の命名、整理、発見、共有を簡単にする新しいサービスのSageMaker Feature Storeも公開した。
AWSはさらにSagemaker Pipelinesも公開した。こちらはプラットフォームの他の部分と統合される新しいサービスで、ワークフローを作って自動化できるように機械学習のCI/CDサービスを提供し、トレーニングデータや構成といったモデルコンポーネントの監査証跡も利用できる。
AWS re:InventカンファレンスのキーノートでCEOのAndy Jassy(アンディー・ジャシー)氏が指摘したように、機械学習の分野ではデータ準備が大きな課題として残っている。ユーザーはクエリやコードを書いてまずデータをデータストアから取得し、それからクエリを書いてコードを変換し、必要な機能と組み合わせる必要がある。これらはいずれもモデルを実際に構築する作業ではなく、モデルを構築する基盤の作業だ。
Data Wranglerにはあらかじめ構成されたデータ変換が300以上組み込まれていて、ユーザーはカラム型を変換したり足りないデータを平均値や中間値で補完したりすることができる。視覚化ツールもあり、潜在的なエラーを特定できるほか、モデルをデプロイする前にデータの不整合を見つけたり診断したりするツールにもなる。
このようなワークフローはすべてノートブックに保存したりスクリプトにしたりして複製できる。またSageMaker Pipelinesでワークフローの自動化に利用される。
同様の問題に取り組んでいるスタートアップがいくつもあることには注目したい。結局のところ、機械学習のデータの扱いはこの分野で最もよくある問題の1つだ。しかし大半の企業は今も独自のツールを作っているため、マネージドサービスの登場には適したタイミングだ。
カテゴリー:ネットサービス
タグ:AWS re:Invent、AWS、Amazon、機械学習
[原文へ]
(翻訳:Kaori Koyama)