日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化

日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化

PKSHA Technology(パークシャテクノロジー)は9月18日、自然言語処理ソフトウェア「tdmelodic」(Tokyo Dialect MELOdic accent DICtionary generator:東京方言高低アクセント辞書ジェネレーター)をオープンソースソフトウェア(OSS)としてGithub上で公開したと発表した。ライセンスは修正BSDライセンス(三条項BSDライセンス)。また特許出願中という。

tdmelodicを使用すると、様々な単語の東京式アクセントを推定でき、それにより大語彙アクセント辞書の自動生成が可能となる。この辞書は、より自然に感じられる日本語音声合成などの用途に利用できる。「日本語の単語の表層形と読みを入力とし、その単語の東京式アクセントを出力する機能」、「既存の日本語形態素解析用辞書UniDicとNEologdをベースとして、日本語文章の分析機能を有するMeCab用の大語彙アクセント辞書を自動生成する機能」を提供する。

PKSHA Technologyは、日本語音声合成技術の社会実装の加速を目的として、日本語音声合成で実用上必要となるような幅広い語彙を網羅した大規模アクセント辞書を自動生成するためのモジュールとして、単語の東京式アクセントを自動推定するソフトウェアtdmelodicを開発・公開。同ソフトウェアは、単語の表層形(漢字など、単語が文章中で現れる形)と読み(フリガナ)から、その単語のアクセントを深層学習に基づく技術により推定する。

同ソフトウェアを、既存OSSの大規模日本語辞書のひとつ「NEologd」などに適用すると、語彙サイズ数百万単語規模の大規模なMeCab用アクセント辞書を一括で自動生成できる。tdmelodicの活用法の一例として、音声合成システム開発者はまずtdmelodicとNEologdによる自動生成辞書をベースラインとして開発を始め、必要に応じて辞書中の誤りを適宜修正しながら文章読み上げの性能を向上させていくといった開発プロセスへの活用などが考えられるという。

近年、深層学習を活用した音声合成技術の登場により、合成音声の音質は飛躍的が向上し、店舗接客ロボットやスマートスピーカーなどにおいて音声合成システムが活用され始めて普及しつつある。しかし日本語の音声合成においては、いわゆる「イントネーションに若干の違和感がある」傾向にあり、依然として技術的課題となっているという。この問題は、音声合成システムの前処理において、各単語にアクセント情報を付与する際に、必ずしも正しい情報を付与できていないことが原因のひとつと考えられるとされる。

日本語の多くの方言の話し言葉において、単語のアクセント情報は重要な役割を担っており、そのひとつが同音異義語の識別のための役割(弁別機能)となっている。例えば、「富士」と「藤」は平仮名で書くと同じふりがな(ふじ)になる単語だが、アクセントが異なることによって識別でき、同様のケースが多数ある。

また、もうひとつの重要な役割が、文章中のフレーズの意味的まとまりや、文章の構造を理解しやすくするための役割(統語機能)という。例えば東京方言では、複数の単語が連結して複合語になった際に、複合語のアクセントと、個々の単語を単純に連結したアクセントとが、まったく異なったものになることがある。例えば「機械学習」は、「機械」(き\かい)「学習」(が/くしゅう)を単純に連結した「き\かいが/くしゅう」ではなく、「き/かいが\くしゅう」と発音する(\は下降気味に発音。/は上昇気味。東京方言の場合)。このように発音することで、「機械学習」が意味的にひとつの塊であって、単に「機械」と「学習」を並べた以上の特別な意味を持つ複合語であるということが分かりやすくなる。

日本語音声合成においてより自然な結果を得るためには、読み上げ文章中の全単語に対してこれらアクセント情報を適切に付与する必要があり、現在では、アクセント辞書(単語のアクセント情報を列挙した電子的な目録)を活用することが一般的という。

しかし、新語や流行語、商標名のように、標準的な辞書には掲載されない単語や、複雑な複合語などについては、実用上の重要性の高さにもかかわらず、既存の標準的なアクセント辞書では必ずしも十分に対応しきれていなかったという。

なお今回の成果の一部は、国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)の助成事業の結果得られたものという。

関連記事
PKSHAが3Dアルゴリズム開発のSapeetを子会社化

PKSHAが3Dアルゴリズム開発のSapeetを子会社化

汎用型対話エンジンや領域特化型の画像認識エンジンなど、自社で開発した機械学習/深層学習領域のアルゴリズムモジュールを展開するPKSHA Technology(パークシャテクノロジー)。同社は2月13日、3Dアルゴリズムを開発するSapeetを子会社化したことを明らかにした。

株式の取得価格については非公開。SapeetではPKSHAの顧客基盤や管理インフラなどのアセットを活用しつつ、引き続き独立したチームとして事業開発にあたるという。

Sapeetは2016年3月の設立。翌年にベンチャーキャピタルのANRIからシードラウンドで資金調達を実施しているが、実はこれがSapeetにとって唯一の外部からの資金調達だ。そういった意味では比較的早いフェーズでのM&Aと言えるかもしれない。

3Dアバターで着圧情報や着心地がわかる仕組みを構築

現在Sapeetでは3Dネット試着システムやサイジングモジュールなど、コアとなる3D技術をアパレル業界を中心とした複数の領域で展開している。

同社のネット試着システムを導入したECサイト上では、ユーザーが身長・体重・年齢・性別を基に自身の“分身”となる3Dアバターを作成する。商品の3Dデータと照らし合わせることで、このアバターを通じてネット上で洋服を試着し、サイズやコーディネートを確認できる仕組みだ。

特徴は「どこがきつくて、どこがゆるいか」など試着した服の着圧情報や着心地がわかること。ヒートマップのような形で全体のフィット感が可視化される(タイトな部分は赤く表示される)ので、ECサイト上で自分に合ったサイズの服を見分けられる。

もちろん服の組み合わせを複数パターン試したり、カラーバリエーションを変えたりといった形でコーディーネートを検討する際にも有用だ。

Sapeetではこのネット試着システムを事業者向けに展開する中で、服の3Dデータを簡単に作れる仕組みや身体のサイズを写真から測れる技術などを付随して開発してきた。

そのひとつであるサイジングモジュールでは身長・体重・年齢・性別といったデータと、数枚の全身写真をもとにユーザーの体型を測定し、3Dデータとして可視化する。実際にはスーツを着ないけれど、ZOZOSUITのような物をイメージしてもらうとわかりやすいかもしれない。

3Dの体型データではなで肩や猫背など細かい特徴も汲み取れるため、既製品であればより適したサイズを提案することができるし、オーダーメイドであれば肩周りの設計を見直すなどより細かい調整ができるようにもなる。

Sapeet代表取締役の築山英治氏は「アパレル業界では大量生産大量廃棄のスタイルが課題とされてきたが、3Dデータを活用することで事前にサンプルを作らずとも注文を受け付け、ある程度受注が合った時に実際に生産するといった服の作り方、売り方も提案できる」と話す。

物理シミュレーションの研究をネット試着に応用

Sapeetの技術は築山氏が大学時代に行なっていた物理シミュレーションの研究がベースになっている。学部生時代は金属部品などを対象に「どこに圧がかかるのか、どのような設計をすればいいのか」を学び、大学院では流体シミュレーションの研究室で服のシミュレーションの研究をしていたそうだ。

これはいわゆる3D CG領域のテクノロジーを活用したもの。3Dデータを扱うという意味ではディズニーなどがCGの分野で秀でているが、Sapeetはその技術をアパレル分野の課題解決に用いた。

「きっかけは大学時代にネットで服を購入した際、自分のサイズに合った服が買えず困った体験から。アメフト部に入っていたことでそれまでと体型が大きく変わり、買った服がパツパツで着れなかった。周りにも同じような悩みを抱えていた知人がいたので、どうにか簡単にネット試着ができる仕組みが作れないかと考え始めた」(築山氏)

サイジングモジュールのような概念も今でこそZOZOSUITが話題になっているが、数年前はまだそのような考え方も根付いていなかったものだ。

早い段階からSapeetに出資をしているANRIの佐俣アンリ氏も「3Dスキャニング自体は『セカンドライフ』が流行った2007年ごろに波がきたものの、その時は大きくな広がらず沈んでしまった。ただ技術的にいつかは大きな波がくる領域。その中で自分たちの研究を土台にした面白いアプローチであり、創業者を含めたチームも優秀だったので投資をした」と当時を振り返る。

写真左からANRI佐俣アンリ氏、Sapeet代表取締役の築山英治氏、ANRI鮫島昌弘氏

3D技術の領域で1番濃いエンジニアが集まるチームを作る

さて、“アルゴリズムサプライヤー”として事業を拡大するPKSHAが、そんなSapeetを子会社化するに至ったのはなぜだろうか。PKSHAの代表取締役である上野山勝也氏は「Sapeetをファッション領域の企業ではなく、3D技術に強みのあるスタートアップとして見ている」とした上で、今回の背景をこう語る。

「3Dモデリングや3Dシミュレーションといった3D技術は自分たちも今後絶対にやろうと思っていた分野であり、Sapeetはそこで1歩先、2歩先を行っているチームだと考えている。一方で(事業を育てるためには)比較的ロングランしないといけない領域である可能性はあるが、自分たちの会社なら長期戦もできる。『この領域で1番濃いエンジニアが集まるチームを作ろう』という方向性もお互い一致していたので、一緒にやるのが1番良いのではと合意に至った」(上野山氏)

3Dモデリング技術の会社は他にもないわけではないが、アルゴリズムドリブンで自社プロダクトを開発しているようなエンジニア主体のスタートアップは多くない。「エンターテイメントやゲームなど幅広い領域で活かせる技術であり、結構な規模のマーケットになりうると考えている。そのアルゴリズムにアダプトできるエンジニアチームを作るのが1番難しい」というのが上野山氏の見解だ。

一方のSapeet側としては「当初は資金調達を考えていた」ためいろいろな選択肢を検討したが、最終的にはカルチャーの相性が良く、事業面への理解とシナジーのあるPKSHAと組むことを決めた。

「個人的には、技術に固執しすぎてずるずると時間を使ってしまうシナリオも見えていたので、そうなってしまうことを危惧していた。技術をベースにしつつも、ビジネスサイドの視点も強化したいと考えていた中で、(PKSHAは)技術力に強みのあるエンジニアドリブンな会社として事業を拡大している。かつ創業から10年経っておらずスタートアップの気質にも合うと感じたことが大きい。両者の技術を合わせればより面白いサービスができるとイメージできた」(築山氏)

冒頭でも触れた通りSapeetは2016年3月の設立であり、まさに事業の種となる基盤技術を育てている真っ只中だ。そういったフェーズの若い技術系スタートアップが、事業や理念に共感した“先輩のテック企業”と一緒に事業を大きくしていく選択肢は今後少しずつ広がっていくのかもしれない。

「VCのセオリーとしては、技術系のスタートアップは時間がかかるのでPoCが終わるまで投資しづらいような側面もある。その手前の段階でも、そこに理解を示してくれた会社と一緒にやれるというのはポジティブな動きだと考えている。そのようなプレイヤーが増えていくと、エコシステム全体として技術系の領域でトライする人も増える」(佐俣氏)

SapeetではPKSHAの顧客基盤や管理インフラなどのアセットを活用しつつ、引き続き独立したチームとして事業開発を進めていく計画。また両社では中長期的な構想として、現在PKSHAが機械学習/深層学習領域で展開している事業と似たようなスキームで、3D技術領域のアルゴリズムモジュールを開発・展開していくような方向性も検討していくという。