江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

データサイエンス共同利用基盤施設(ROIS-DS)人文学オープンデータ共同利用センター(CODH)は8月30日、江戸時代の版本に書かれているくずし字を現代の書体に変換(翻刻)するアプリ「みを」(miwo)を無料公開した(Android版iOS版)。開発者は、カラーヌワット・タリン氏。共同開発者は北本朝展氏とMikel Bober-Irizar氏。共同研究者はAlex Lamb氏、Siyu Han氏。

AIくずし字認識については、CODH開発の「KKuroNetくずし字認識サービス(AI OCR)」および「Kaggleくずし字認識コンペ」1位のtascj氏が開発したくずし字認識モデルを用いている。また両AIモデルの学習には、同センターが開発し国文学研究資料館が公開している「日本古典籍くずし字データセット」を利用。Flutterを活用したクロスプラットフォーム開発により、Android・iOS対応アプリを作成した。

みをでは、カメラでくずし字を撮影し、画面下中央の「認識ボタン」をタップすると、ほぼ瞬時にして画像の個々のくずし字の上に、対応する現代の書体が緑色で示される。画面下のスライダーを動かすと、翻刻されたレイヤーを部分的に隠せるので、原文との比較がしやすくなる。まだ完ぺきではないとCODHも言っているように、実際に使ってみると、たまに文字が抜けたり違っていたりもするが、まったくくずし字が読めない人間にすれば、かなりの助けになる。

原文または翻刻された文字をタップすると両方の対応する文字にマーカーが付く。また画面右上の四角形のアイコンをタップすると、認識したすべての文字が四角形で囲まれる。四角形は色分けされ、どの文字がどれに対応しているのかがわかるようになる。

またCODHのくずし字データセットと連携し、認識結果に疑問を抱いた際には、くずし字の用例を確認できる。

江戸時代のくずし字をAIにより文字認識し現代の書体に変換(翻刻)するアプリ「みを」をCODHが無料公開

CODHによれば、くずし字が読める人は、日本の人口のわずか0.01%程度(数千人程度)だという。歴史的資料は大量にあるものの、くずし字を読める人が少ないために翻刻には大変な時間がかかるのが現状だ。そこで、AIを使った翻刻システムを開発しようと考えたとのこと。アプリ名の「みを」は、「源氏物語」の第14帖「みをつくし」に由来する。航路を示す標識「澪標」を意味するが、「人々の水先案内となるように、「みを」アプリがくずし字資料の海を旅する案内となることを目指しています」とCODHは話している。

DeNA在籍の「Kaggle Grandmaster」が国内企業最多の3名に、「Kaggle Master」も16名

国内企業最多、DeNA在籍の「Kaggle Grandmaster」が3名・「Kaggle Master」も16名に

ディー・エヌ・エー(DeNA)は1月15日、日本国内に十数名しかいないとされる「Kaggle Grandmaster」の在籍人数が日本企業としては最多(2021年1月15日時点。DeNA調べ)の3名となったと発表した(Kaggle Rankings)。「Kaggle Master」も国内最多の16名(2021年1月15日時点。DeNA調べ)が在籍しているという。

同社データサイエンティストが、2020年10月から2021年1月にかけて行われたKaggleコンペティション「Riiid! Answer Correctness Prediction」に参加し、12位(日本チームとしては3位)となった。この結果により、Kaggle最高位である「Kaggle Grandmaster」2名が誕生し、同社所属のGrandmasterは計3名となった。

Kaggleは、2017年にGoogleが買収。世界中の統計家、データ分析家、研究者などのデータサイエンティストが登録しており、分析手法や最適モデルを競うプラットフォームの運営を行っている。コンペでは、主催者が投稿した課題に対し、参加者が最適なモデルを構築し競い合う。

DeNAでは、2018年4月より「Kaggle社内ランク」制度を導入し、様々な事業領域においてAI技術を活用した取り組みを積極的に行っているという。

同制度は、AI技術のサービス応用力強化のために、データサイエンス⼈材の積極的な採⽤と、データサイエンス⼈材のキャリア形成を⽀援することを⽬的とした制度で、一定の条件下で業務時間でのKaggleへの参加を推進しているそうだ。

すでにDeNA社内には多くの「Kaggler」が在籍しており、3名のKaggle Grandmasterのほか、「Kaggle Master」も国内最多の16名(2021年1月15日時点)が在籍している。

その知識やスキルなどは、DeNAが関わる様々なビジネス領域である、ゲーム、ライブストリーミング、スポーツ、ヘルスケア、オートモーティブなどで活かされており、DeNA以外の企業との取り組みにおいても活用されているという。

DeNAでは、今後も優秀なKagglerのデータサイエンス力が社内外の様々な企業や事業において社会に役立ち、活用されることを目指していくとした。

関連記事
Googleとプレミアリーグ所属マンチェスター・シティ主催のサッカーAIコンペで、日本人チームが5位入賞
AI医療機器スタートアップのアイリスが資金調達を実施、累計調達額が約29億円に
Googleがデータサイエンスと機械学習のコンペ主催プラットホームKaggleを買収

カテゴリー:人工知能・AI
タグ:KaggleDeNA日本(国・地域)

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで、日本人チームが5位入賞

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで日本人チームが5位入賞

quantum(クオンタム)は12月22日、同社データサイエンティストとしてquantum AIを支える大渡勝己氏を含むチーム「TamakEri」が、Kaggleコンペティション「Google Research Football with Manchester City F.C.」において、グローバルで1138チーム中5位に入賞したこと、日本人チームとして最高位を獲得したと発表した(2020年12月17日時点の公開プロフィール情報に基づく)。

Kaggleは、2017年にGoogleが買収。世界中の統計家、データ分析家、研究者などのデータサイエンティストが登録しており、分析手法を投稿し、お互いに競うプラットフォームの運営を行っている。コンペでは、主催者が投稿した課題に対し、参加者が最適なモデルを構築し競い合う。

Google Research Football with Manchester City F.C.も、同プラットフォームを利用し開催されたAIコンペのひとつで、2020年9月28日〜12日にかけて開催された。フットボール(サッカー)をプレイするAIエージェントの作成と研究加速を目的としており、プレミアリーグ所属の強豪サッカーチーム「マンチェスター・シティF.C.」とGoogle Researchがホストとなっている。

同コンペには、グローバルで活躍する大手企業や研究所などに所属する機械学習エンジニアからなる1138チームが参加。参加者が提出したAIエージェント同士による多数の試合(Google Research Football Environmentという実際のビデオゲームと同じような環境で動作)が行われ、その勝敗結果をもとに順位付け/レーティング計算が行われた。

大渡氏は、DeNAのデータサイエンティスト田中一樹氏と組んだチームで同コンペティションを戦い、並列強化学習を駆使して作成したAIエージェントで1138チーム中5位(入賞)、日本人のチームとして最高位を獲得する成績を収めた。

大渡氏は、「AIは状況に応じた反射的な判断は得意なものの、記憶、特に『長期的な記憶』に関してはまだ研究開発の途上。人間のプレイヤーの場合、過去の経験の蓄積からゲーム中に様々な判断を行うが、AIはまだそれが得意ではない。今後は、複数人での協調動作や長期的な記憶の利用による戦略変更などサッカーの強化学習を通してその長期的な記憶に関わる領域を紐解くことで、AI技術の進歩に寄与できると考えている」とコメント。quantum AIでは、長期的な記憶を獲得できる手法を研究しているという。

またquantum AIリーダーを務めるquantum代表取締役副社長 及部智仁氏は、「選手の動き、チームの動きを模倣する深層模倣学習の研究を進めることで、他のチームスポーツはもちろん、スポーツ以外の様々な新規分野へも応用できると考えている。今回のコンペでの経験を糧とし、強化学習技術を用いたAI研究開発や新規事業への応用に引き続きチャレンジしていく」とした。quantum AIは、新規事業でデータサイエンスを導入する企業向けに、アカデミアによるAI研究から機械学習の開発・運用までを一気通貫で提供していくという。

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで日本人チームが5位入賞

quantumは、未来のビジネスを生み出すことにこだわるスタートアップスタジオ。同社quantum AIは、機械学習システムの開発と実装支援をするプロジェクトチーム。AIを導入する企業向けに、アカデミアによるAI研究から機械学習の開発・運用までを一気通貫で提供している。

電気通信大学との産学連携で高速演算処理対応のコンピューティングを備えるquantum AIのラボを運営し、ビジネス上の課題と機械学習をマッチングさせるフルスクラッチAI開発を可能としている。ビジネス上の課題を解決する機械学習システムを開発するために、アカデミアの知見を軸に機械学習アルゴリズムをプラットフォームロックなくゼロから開発する。

また、複合的な視点で機械学習システムを設計・実装できるメンバーが在籍。アカデミアのAI研究者、機械学習のデータサイエンティスト、データエンジニア、AI系スタートアップの起業経験者、AI系の新規事業開発経験者の視点で、機械学習システムを設計する。

関連記事
AI医療機器スタートアップのアイリスが資金調達を実施、累計調達額が約29億円に
データサイエンスとAIの作品でコンペを行うKaggleが国土安全保障省の空港のセキュリティ改善策懸賞に協力
Google、データサイエンス、機械学習のKaggle買収を確認
機械学習を利用して肺がんの兆候を早期発見する技術でKaggleが賞金100万ドルのコンペを主催

カテゴリー:人工知能・AI
タグ:Kagglequantum AIGoogle / グーグル(企業)DeNA日本(国・地域)

大量の一般公開データセットを検索できるGoogle Dataset Searchがベータから公式リリースへ

Google(グーグル)は米国時間1月23日、Dataset Searchのベータ終了を発表した。この一般に公開されている2500万近いデータの集合を検索できるサービスは、2018年の9月にローンチした

研究者たちが利用できるこれらのデータセットは、オランダに2010年から2018年まで猫が何匹いたかといった小さなものから、自分たちの仮説をチェックしたり機械学習のモデルを訓練およびテストするための、注釈入りのオーディオと画像の大型集合までいろいろだ。このツールは現在、約600万のテーブルを索引データ化している。

今回のリリースからDataset Searchにはモバイルバージョンが加わり、新機能も追加された。まず第一に、テーブル、画像、テキストなどデータのタイプを指定するフィルターだ。もちろんこれで求めるデータが見つけやすくなる。また、データセットに関する情報が増え、その出どころも明記された。

検索インデックスの中のデータの多くは、政府の省庁が出どころだ。現在インデックス中のデータとしては、米国政府のデータセットが約2百万件ある。ただしGoogleのKaggleも頻繁に姿を見せるし、そのほかの公共および民間の団体もデータを提供している。

Googleによれば、面白いデータセットを持ってる人は誰でも、それを提供して索引データ化してもらえる。そのプロセスには、データを詳しく説明できるschema.orgの標準マークアップが使われる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

データサイエンスとAIの作品でコンペを行うKaggleが国土安全保障省の空港のセキュリティ改善策懸賞に協力

空港のセキュリティを通ることは、どこでもうんざりする体験だ。しかも遅くて人に対し侵害的なプロセスでありながら、TSA(上図)には、脅威を未然に防いだという立派な実績があまりない。そこで国土安全保障省は、データサイエンスのソリューションのコンペを主催しているKaggleの協力を仰いで、空港のセキュリティシステムをより正確かつ効率的にするための、機械学習ツールの懸賞を開催している。

今年の早い時期にGoogleが買収したKaggleは、機械学習の難問の新しい視点による解を競う懸賞付きコンペを、定期的に主催している。今年の三度目のコンペであるこの危険検出アルゴリズムの改良というお題の懸賞は、賞金総額が100万ドルを超えている。

優勝賞金が50万ドルで賞金総額150万ドルのこのコンペの応募作品は、人間が身につけている危険物を正確に予見するアルゴリズムやシステムだ。機械学習を訓練するための画像データ集は、TSAが提供する。服をちゃんと着ていても武器の携行が分かる、という画像の集合だ。プライバシー保護のために、それらは実際の写真ではなくてTSAが作った画像だ。

コンピュータービジョンのスタートアップMatroidのファウンダーでCEOのReza Zadehはこう言う: “このコンペの結果から、実際にそんなシステムを作ったらどれほどのものができるか、その目安が分かるだろう。でも結果がどうであれ、現場の警備員が確実に危険物を見逃さないようにするための、補助的システムは絶対的に必要だ”。

これら17のボディゾーンのどれかに武器が隠されている可能性を検知するシステムが、コンペの課題だ。

もちろんTSAそのものが具体的に機械学習の問題を抱えているわけではない。むしろこのお役所の問題は、高価で複雑なマシンを自力でアップグレードする技術力がないことと、高価とはいっても、今の民間のデータセンターに見られる高度なGPUをまったく導入していないことだ。しかしGoogleやFacebookなどは、軽量級の機械学習フレームワークに重点投資し、エッジで〔各末端現場で〕ローカルに(インターネットなしで)使えるよう最適化しているから、TSAもそれらなら利用できるだろう。

そしてそれなら、コンペの応募作品がいきなり実際に空港の人体スキャンマシンで使われることもありえる。事前に訓練するほかに、いくつかの制約条件に合わせればよいだけの話だ。国土安全保障省も、真の評価のためには実地テストが必要だから協力する、と言っている。

Kaggleを作ったAnthony Goldbloomは、“エンドユーザーマシンに高速なGPUがないのは厳しいが、でも推論部分はヘビーな計算をしないからね”、と言う。

もうひとつの懸念は、危険検出を自動化した場合に起きうる、名誉毀損的な状況だ。旅行者が、身におぼえのない嫌疑をかけられるおそれがある。しかしTSAが作った訓練用画像のデータセットは、それを防ぐための工夫がしてある。

“TSAはそれに関してはいい仕事をしている。ボランティアを採用するときも、特定のタイプの人〔宗教、民族等〕が不名誉な誤認をされないために、十分なダイバーシティ(多様性)を確保するようにしている”、とGoldbloomは念を押す。

近い将来、応募者はGCP(Google Cloud Platform)を(使いたければ)使えるようになる。フレームワークも、KaggleがGoogleの企業だからといって、必ずTensorFlowを使わなければならないことはない。コンペの詳細はここにある。締め切りは12月だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleがデータサイエンスと機械学習のコンペ主催プラットホームKaggleを買収

情報筋によるとGoogleは、データサイエンスや機械学習のアイデアのコンペ(懸賞)を主催しているKaggleを買収する*。〔*: このニュースの翌日(米国時間3/8)、Googleはサンフランシスコで行われたCloudNextカンファレンスで、この買収を確認した。〕

Kaggleの協同ファウンダーでCEOのAnthony Goldbloomは電話取材に対して、買収を否定した。Google自身は、“噂に関してコメントはしない”、と述べた。〔3月7日時点〕

Kaggleは2010年にGoldbloomとBen Hamnerが創業し、今ではここを自己表出のためのプラットホームとして利用しているデータサイエンティストが約50万人いる。同社は早くスタートした方だが、今ではDrivenData, TopCoder, HackerRankなど競合他社も少なくない。しかしKaggleはあえて特定の専門分野にフォーカスすることによって、今もトップの座を維持している。今では同社のサービスが、データサイエンスと機械学習のコンペの定番のように見なされている。

Googleが買収しようとしているのは、データサイエンスに関する最大でもっとも活発なコミュニティだ。買収によってこのコミュニティにおけるGoogleのマインドシェアも伸びるだろう(Tensorflowなどのプロジェクトを抱えるGoogleは今すでにかなり高いマインドシェアではあるが)。

KaggleとGoogleは、最近になって付き合いの履歴がある。今月の初めにはGoogleとKaggleが共同で、YouTubeのビデオを分類する賞金10万ドルのコンペを開始した。このコンペは、Google Cloud Platformとの深い統合が前提になっている。

GoogleはKaggleのサービスを、その名前を残したまま継続するようだ。

買収のねらいはKaggleの技術よりもコミュニティにあると思われるが、Kaggleはコンペを主催するためのおもしろいツールの数々や“カーネル”〔応募コードを実際に動かす環境やライブラリ〕も開発している。カーネルは、そのソースコードも(主に応募者のために)公開されている。以前それは、(コードを動かすための)“スクリプト”と呼ばれていた。

コンペ・サイトの通例として、Kaggleにも求人求職ボードがある。Googleがそれをどう利用するのかは、不明だ。

Crunchbaseのデータによると、Kaggleは2010年の立ち上げ以来1250万ドルを調達している(PitchBookによると1275万ドル)。投資家はIndex Ventures, SV Angel, Max Levchin, Naval Ravikant, GoogleのチーフエコノミストHal Varian, Khosla Ventures, そしてYuri Milnerだ。

Kaggle関連記事

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleとKaggleの共催で大量のビデオに自動的にタグ付けする機械学習アプリケーションの懸賞、賞金総額10万ドル

verticals-mosaic-6x3-big

GoogleとKaggleが今日(米国時間2/15)、機械学習の技術でビデオのタグ付けを自動化する方法の懸賞発表した

優勝賞金は3万ドルで、2位から4位まではそれぞれ2万5千、2万、1万5千、1万ドルの賞金をもらえる。応募するデベロッパーは、Googleが最近アップデートしたビデオデータの集合、YouTube-8M V2のビデオを分類してタグ付けする。700万本のYouTubeビデオから成るこのデータ集合は、計45万時間ぶんのビデオに相当する。ラベルはすでに付いているから、デベロッパーはそれを訓練データとして利用できる。ただし、まだ誰も見ていないビデオが70万本あるから、それらのタグ付けが難関だ。
kaggle
[ビデオのURL700万 総時間45万時間 オーディオ/ヴィジュアルフィーチャー32億 クラス4716 平均ラベル数3.4]

treemap-big

この懸賞を発表したまさに同じ日に、GoogleはTensorFlowの1.0をリリースしたが、おそらくそれは偶然ではない。懸賞で使用する機械学習フレームワークは、TensorFlowに限定されない。何を使ってもよい。しかしフルフレームで1.71TBにもなるこのデータ集合はGoogleのCloud Platform上にあるから、モデルの訓練にもGoogleのサービスを使うデベロッパーが多いだろう。しかも今回は、Cloud Platformを無料で使えるオプションもある。

先週Googleは、ビデオデータ集合YouTube-BoundingBoxesをローンチした。名前が示すとおり、このデータ集合(500万本のビデオ)には下図のように、各フレームにオブジェクトを指示するバウンディングボックス(囲み枠)がある。今回の懸賞でデベロッパーがそれらを使うことはないが、Googleがビデオの分類に関心を持っていることの表れでもある。日増しに成長を続けているYouTubeは、そこだけでの検索件数が、Google検索と競合するほかのどんな検索エンジンよりもたぶん多いのだ。

image00

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

機械学習を利用して肺がんの兆候を早期発見する技術でKaggleが賞金100万ドルのコンペを主催

lungs-money

データサイエンスのコンペを毎年主催してほぼ10年になるスタートアップKaggleが、今度の賞金総額100万ドルのコンペでは、肺の中の癌になりそうな病変組織を見分ける今よりも良い方法を募る。この2017 Data Science Bowlと名付けられたコンペの資金提供者はLaura and John Arnold FoundationとBooz Allen Hamiltonだ。

目標を限定したコンペで高額賞金、というケースは、今回が初めてではない。昨年の同コンペでは心臓病の兆候を見つけるデータ分析技術に20万ドルの賞金が提供された。さらにその前年は、海の健康診断、という課題だった。

でもこれまでで最高額の賞金は、今年の100万ドルだ。優勝者が50万ドル、2位、3位、4位がそれぞれ20万、10万、2万5000ドルとなる。〔4位は複数か?〕

Kaggleは2010年にAnthony GoldbloomとBen Hamnerが創設した。これまですでにKhosla Ventures, Index VenturesなどからシリーズAで1100万ドルを調達している。

Goldbloomは本誌に、“うちは、データサイエンスのホームのような企業でありたい”、と語った。

同社の収益源は、このサイトでコンペを行う企業や財団などからの出資金の一部だ。また80万名近い会員のための求職求人掲示板からの収益もある。

2017 Data Science Bowlがローンチしたのは今朝(米国時間1/12)だが、すでに300のチームからの提出物がある。Goldbloomによるとこれらの提出物の多くは、提出の早さを競って自慢するためだ、という。しかし2017年4月12日の締め切りまでに、一日平均5件の提出がある、という予想だ。

参加チームは、国立癌研究所(National Cancer Institute)が提供する肺のスキャン画像を使って自分たちのモデルを作る。目標は、今のソリューションが不適切である最大の理由、すなわち高い偽陽性率を、大幅に減らすことだ。

GoogleのDeepMindMicrosoftには、どちらにも、目のスキャン画像を分析して今後失明になりそうな兆候を見つける機械学習モデルとそのためのリソースがある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))