初のトランジスタ数1兆のチップを製造するためにCerebrasが克服した5つの技術的課題

Cerebras(セレブラス)に最高があふれている、これまで密かに次世代のシリコンチップ製造を進めて来たこの会社は、Amazonから歯磨き粉を買うことと同じくらい素早く、ディープラーニングモデルを生み出せるようにすることを目指している。

ほぼ3年にわたる沈黙の開発の後、米国時間8月19日、Cerebrasは新しいチップを発表した。それはとてつもない製品だ。その「ウエハースケールエンジン」(Wafer Scale Engine)は、1.2兆個のトランジスタ(史上最大)を持ち、面積は4万6225平方ミリメートル(史上最大)で、18ギガバイトのオンチップメモリ(今日の市場のチップの中で最大)と、40万個プロセッシングコア(おそらく最大だろう)で構成されている。

CS Wafer Keyboard Comparison

Cerebrasのウエハースケールエンジンは典型的なMacのキーボードよりも大きい。(提供:Cerebras Systems)

それはスタンフォード大学で開催中のホットチップス会議で大きな驚きを巻き起こした。この会議は製品とそのロードマップを紹介するためのシリコン業界の大きな催しだが、出席者の間からは様々などよめきの声が挙げられた。FortuneTiernan Rayでこのチップの詳細詳細を読んだり、Cerebras自身によるホワイトペーパーを読んだりすることができる。

これが最高であることはともあれ、Cerebrasがこのマイルストーンにたどり着くために乗り越えなければならなかったいくつもの技術的挑戦は、より興味深いストーリーだと私は思う。今日の午後、私は創業者兼CEOのアンドリュー・フェルドマン(Andrew Feldman)にインタビューを行い、その173人のエンジニアたちが、この数年間Benchmarkやその他のVCから得た1億1200万ドル資金で、何を密かに作ってきたのかについて話を聞いた。

大きくなるということは、挑戦以外の何物でもない

まず、世の中で使われている携帯電話やコンピューターを駆動するチップが、どのように作られるかについて、簡単に背景を説明しよう。TSMCのようなファブメーカーは、標準サイズのシリコンウエハーに、光を利用してトランジスタをエッチングして、それを個別のチップへと分割している。ウエハーは円形で、チップは正方形である。そのためその円形をきれいな個別のチップの並びへと分割するためには、ある程度の幾何学が必要となる。

このリソグラフィプロセスにおける大きな課題の1つは、製造プロセスにエラーが忍び込んでしまうことである。このため品質を検証するためには厳しいテストが必要となり、製造業者は品質の悪いチップを廃棄することを余儀なくされている。チップが小さくコンパクトになるほど、個々のチップが動作不能になる可能性は低くなり、製造業者の歩留まりは向上する。歩留まりが高くなるほど、利益も大きくなるのだ。

Cerebrasは、多数の個別のチップを1つのウエハー上にエッチングするというアイデアを捨て去り、その代わりにウエハー全体を1つの巨大なチップとして使用することにした。これにより、個々のコア同士をすべて、直接接続することができるようになるため、ディープラーニングアルゴリズムの中で使われる重要なフィードバックループの速度が大幅に向上する。だが引き換えに、そうしたチップを製造し管理するために、製造と設計に対して厳しい挑戦が突きつけられることになる。

CS Wafer Sean

Cerebrasの技術アーキテクチャと設計は、共同創業者のショーン・リー(Sean Lie)氏によって主導された。フェルドマン氏とリー氏は以前、SeaMicroという名のスタートアップで一緒に働いていた(SeaMicroは2012年にAMDに3億3400万ドルで売却された)。(提供:Cerebras Systems)

フェルドマン氏によれば、チームが最初に遭遇した挑戦は、「スクライブライン」(ウエハー上で個々のチップとチップの間にあるギャップ)を横切る通信の処理だった。Cerebrasチップはウエハー全体に広がっているのに、既存のリソグラフィ装置は、シリコンウエハー上に個々のチップがエッチングされつつあるかのように動作する必要があるからだ。そのため同社は、そうした個々のチップがウエハー全体で相互に通信できるようにするための、新しい技法を考案する必要があった。同社はTSMCと協力して、通信用の新しいチャネルを発明しただけでなく、1兆個以上のトランジスタを搭載したチップを扱うための、新しいソフトウェアを作成する必要があった。

2番目の課題は歩留まりだった。シリコンウエハー全体を覆うチップの場合、そのウエハーのエッチングに1つでも欠陥があると、チップ全体が機能しなくなる可能性がある。これはウエハー技術全体に対して何十年も障害として立ち塞がっていた問題なのだ。物理学の法則によって、1兆個を超えるトランジスターを完璧に正確に繰り返しエッチングすることは、本質的に不可能なのである。

Cerebrasは、チップ全体に余分なコアを追加することで生まれる冗長性を使ってこの問題にアプローチした。ウエハー上の隣接するコアにエラーが発生した場合には、この冗長なコアがバックアップとして用いられるのだ。「たった1%、あるいは1.5%の不良コアを取り除くだけで良いのです」とフェルドマンは私に説明した。余分なコアを残すことで、チップは本質的に自己修復を行い、リソグラフィエラーを回避し、ウエハーシリコンチップ全体を実行可能にする。

チップ設計の未知の領域に入る

これらの最初の2つの挑戦(スクライブラインを介したチップ間通信と歩留まりの向上)は、ウエハーチップを研究してきたチップ設計者たちを何十年も困らせてきた。だが、それらはいわば既知の問題であり、フェルドマン氏は、最新のツールを使用してそれらに再アプローチすることによって、予想された問題をより容易に解決することができたと語った。

彼はこの挑戦をエベレスト登山にたとえている「これは最初の登山隊がエベレスト登頂に失敗して『ええい、こんちくしょう、この最初の部分は本当に厄介だ』と言うようなものです。そして次の登山隊がやってきて、こう言うのです『そんなの大した問題じゃないね。最後の100ヤードこそが問題なんだ』と」。

そして実際のところ、フェルドマン氏によれば、Celebrasにとって最も困難な挑戦はそれに続く3つのものだった。なぜならば過去のチップ設計者たちは誰も最初の2つの挑戦(スクライブライン通信と歩留まり)を乗り越えられなかったので、その後に何が待ち構えているかを知ることができなかったのだ。

Cerebrasが直面した3番目の課題は、熱膨張の処理だった。チップは動作中に非常に高温になるが、異なる材料は異なる比率で膨張する。つまり、チップをマザーボードにつなぐコネクタも、両者の間にクラックが発生しないように、正確に同じ比率で熱膨張する必要があるのだ。

フェルドマン氏は言う「どうすればそれに耐えられるコネクターを手に入れることができるのでしょう?それまでにそれをやった人が誰もいなかったので、私たちは材料を発明しなければなりませんでした。そのため私たちは、材料科学の博士を雇い入れて、その違いを吸収できる材料を発明しなければなりませんでした」。

チップが製造されたら、最終顧客(データセンターあるいは消費者向けラップトップ)が使用する製品にチップを組み込むOEM(Original Equipment Manufacturer)業者に出荷するために、チップのテストとパッケージングを行う必要がある。しかしそこにも挑戦課題がある。市場にはウエハー丸ごとのチップを扱えるようにデザインされている機器が皆無なのだ。

CS Wafer Inspection

Cerebrasは、チップを処理する独自のテストおよびパッケージングシステムを設計した(提供:Cerebras Systems)。

「一体どのようにパッケージングすれば良いのでしょうか?まあ、その答えは、ガラクタを山ほど発明することになるということです。それが真実なのです。このサイズのプリント基板を持っているところはありませんでした。コネクターもありませんでした。コールドプレートもありませんでした。ツールもありません。それらの位置を調整するツールもありません。それらを扱うツールもありません。そしてテストするソフトウェアもありませんでした」とフェルドマン氏は説明する。「誰もやったことがなかったので、この製造フロー全体を設計したのです」。Cerebrasの技術は、販売するチップだけではなく、実際にそれらのチップを製造およびパッケージングするために必要な、すべての関連機械も含んでいるのだ。

そして最後に、1つのチップが提供するこの処理能力は、膨大な電力と冷却を必要とする。Cerebrasのチップは、動作させるために15キロワットの電力を使用する。これは、現代的なサイズのAIクラスターにある程度匹敵するものだが、1つのチップとしては驚異的な量である。そうした電力は、冷却も必要とする。そしてCerebrasはこのような大きなチップに、電力と冷却の両者を提供する、新しい方法を設計する必要があった。

ここではフェルドマン氏が「Z軸の使用」と呼んでいる、チップを縦に置くことでその問題の解決が図られた。そのアイデアは、従来のようにチップ全体に水平に電力と冷却を届けるのではなく、縦に置いたチップ全体に対して電力と冷却が均一で一貫したレベルで届くようにしようというものだ。

ということで、これら、熱膨張、パッケージング、電力/冷却が、次に現れた3つの挑戦だったのである。同社は過去数年間にわたってこの問題に昼夜を問わず取り組んできたのだ。

理論から現実へ

Cerebrasはデモチップを用意している(私はその実物を見たが、それは私の頭のサイズとほぼ同じ大きさだった)、レポートによれば、同社はそのプロトタイプを顧客に提供し始めている。だが、すべての新しいチップの場合と同様に、本当に大きな挑戦は、顧客の需要を満たすために生産を拡大することだ。

Cerebrasにとって、状況は普通のものとは少々違っている。1つのウエハーに非常に多くの計算能力を搭載しているため、顧客は必ずしも数十または数百のチップを購入してそれらをつなぎ合わせて、計算クラスターを作成する必要がない。その代わりに、彼らはそのディープラーニングに対するニーズのために、ほんの一握りのCerebrasチップを必要とするだけだろう。同社にとって、次の主要なフェーズは、規模を拡大しチップを安定して供給できるようにすることだ。これは、独自の冷却技術も含むシステム全体を「アプライアンス」としてパッケージングすることである。

特にディープラーニング処理ワークフローの将来に対する競争が激化する中、Cerebrasテクノロジーのさらなる詳細を、今後数ヶ月以内に聞くことができることを期待しよう。

画像クレジット: Cerebras Systems / Cerebras Systems

[原文へ]
(翻訳:sako)

AIチップスタートアップの競争は既に始まっている

今年は、すべての目がNvidiaに注がれたかのようだった。ゲーム、データセンターへの関心の高まり、AIアプリケーションへの適用の可能性などの、すべての面で膨大な需要を抱えて、株価が爆発的に上昇したためだ。

しかし、Nvidiaの株価とそのチャートは、AIが技術の世界に広がり続けた2017年の特に目を引くトピックだったかもしれないが、AIの世界では、より深い影響があるかもしれない更に微妙なことが起きている。

今年は、AIの上に構築される将来のデバイスに、パワーを与える独自のハードウェアに取り組む多くのスタートアップたちが、膨大な資金を調達した。これらのスタートアップの中には大規模な展開には程遠い(それどころか製品を出荷さえしていない)ものもあるが、資金調達には困っていないようだ。

画像や音声認識といった処理を構成する2つの主要な要素 ―― 推論と機械学習の最適化を求めて、スタートアップたちは、基本的な方法を見つけようと競い合っている。それらの機能をより速く、より電力効率が高く、次世代の人工知能組込デバイスのためにより適切に実行できるようにするためだ。私たちがCPUで習熟してきた、従来の計算アーキテクチャーの代わりに、いまやGPUが、AI処理が必要とする矢継ぎ早の計算処理を任せるための、頼れるシリコン部品の1つになったのだ。そして、そうしたスタートアップたちは、それをさらに改善できると考えている。

スタートアップたちについて話す前に、何が現在起きているかの感覚をつかむために、まず前述のNvidiaチャートを簡単に見てみよう。今年末の変動にも関わらず、全体としてNvidiaの株価は、2018年に向けて80%近くの上昇を見せている。

 

このことから当然、全てのスタートアップたちは、AI市場におけるNvidiaの死角を見出そうと必死だ。投資家たちもまた、それに注目している。

まず私たちが耳にしたのは、Cerebras SystemsがBenchmark Capitalから資金を調達したという、昨年12月のニュースだった。その当時は、AIチップ業界はまだ今ほど明確にはなっていなかったように見える、しかしそれから1年が経ち、NvidiaがGPUマーケットを支配していることが、この分野の発展を示す明確な指標となった。Forbesは今年8月に、同社の評価額が9億ドル近くに達したと報じた 。明らかに、ここで何かが起きたのだ。

Graphcoreも今年は動きを見せた。Atomicoが主導した、7月の3000万ドルの資金調達が終わったばかりであるにも関わらず、この11月にはSequoia Capitalが主導する、新たな5000万ドルの資金調達を発表したのだ。Graphcoreはまだ、Cerebras Systemsと同様に、Nvidiaのようなすばらしい製品をまだ市場に投入していない。一般的に、ハードウェアのスタートアップは、ソフトウェア上に構築を行うスタートアップよりも、多くの課題に直面するにもかかわらず、このスタートアップは年間で8000万ドルを調達することができたのだ。

中国のAIスタートアップにも投資の突風が吹いた。Alibabaは、Cambricon Technology という名のスタートアップに、10億ドルと伝えられる資金を投入した。Intel CapitalはHorizon Roboticsのために1億ドルのラウンドを主導した。そしてThinkForceと呼ばれるスタートアップが、今月始めに6800万ドルを調達した

Groqについては言うまでもないだろう。これは元Googleのエンジニアたちによるスタートアップで、Social+Capitalから約1000万ドルを調達した。上に挙げたスタートアップたちに比べれば狭い範囲を対象にしているようである。さらに別のチップメーカーであるMythicも、930万ドルの資金調達を行った

ということで、いまや1つ2つではなく、7つスタートアップが似たようなエリアを狙っているのだが、その多くは数千万ドルの資金を調達し、少なくとも1つの評価額は9億ドルに迫ろうとしている。重ねて言うが、これらはみなハードウェアスタートアップ、しかもさらに多額の資金調達を必要とするであろう次世代のハードウェアスタートアップたちなのだ。しかし、これは無視することのできない領域だ。

スタートアップだけでなく、世界の大手企業たちも独自のシステムを構築しようとしている。Googleは今年の5月に、推論と機械学習に特化した次世代TPUを発表した。Appleは次世代iPhone向けに、独自のGPUを設計した。 両社は、ハードウェアをそれぞれの特定の用途、例えばGoogle CloudアプリケーションやSiriなどに合わせてチューニングする方向へ向かっている。またIntelは10月に、Nervana Nueral Network Processorを2017年末迄に出荷すると発表した。Intelは昨年の8月に、Nervanaを3億5000万ドルで買収していた のだ。

これらのすべては、スタートアップ企業や大企業たちによる大規模な動きを表している。それぞれの会社が独自の解釈によるGPUを追い求めているのだ。しかしCudaと呼ばれる独自のプラットフォームへ、開発者たちをロックインしようとする動きを始めたNvidiaを、その地位から追い落とすのはさらに難しい仕事になりそうだ。そして新規のハードウェアをリリースし、開発者たちを誘い込もうと考えるスタートアップたちにとっては、それにも増してさらに難しい仕事になるだろう。

シリコンバレーの投資家たちと話をしてみると、それでもいくつかの懐疑的な見方に出会う。例えば、Amazonのサーバーの中にある古いカードに搭載されたチップで、自分たちの機械学習の目的には十分なのに、どうして企業がより速いチップを買わなければならないのだろうか?しかし、まだこのエリアには膨大な資金が流れている。それらは、Uberに大きな賭けをしたのと同じ企業たち(そこにはかなりの乱れがあるが)とWhatsAppから流れて来ているのだ。

Nvidiaは、依然としてこの分野では明確なリーダーであり、自動運転車のようなデバイスがますます重要になるにつれて、その支配力は続いて行くように見える。しかし、2018年に入れば、これらのスタートアップたちが、実際にNvidiaを追い落とすことができるかどうかについての、よりはっきりとした見通しを得ることができるようになっていくだろう。そこにはIoTナンチャラに組み込むことのできる、より速く、より低消費電力のチップを作ることで、より効率的な推論を行い、デバイスたちの約束を真に果たせる魅力的なチャンスがある。そしてまた、モデルを訓練する際に(例えば、車に対してリスはどのように見えるかといったことを教えるなど)、非常に大きな負荷がかかりそうな場合にも、サーバーたちをより高速に、より高エネルギー効率のよいものにするチャンスがあるのだ。

[原文へ]
(翻訳:sako)