最近のメルマガから · 2024/03/06

おがわの音♪　第1552版の配信

AIを飛躍的に賢くする「世界モデル」とは何か？

天才エンジニアが語るAGI(汎用人工知能)革命の“恐るべきワクワク感”

2024.03.06

by 中島聡

「水は冷たいもの、でも湯気が出ている水は熱い。注意」「火は触ると熱くて、燃え移ることもある。危険」――まるで小さな子供が日々の生活を通して「この世界の性質」を少しずつ学んでいくように、今、AIが「経験則」を手に入れようとしています。これは「世界モデル（World Model）」と呼ばれる概念で、人間のようにどんなタスクでもこなせる「AGI(汎用人工知能)」実現のカギを握るものだそう。

Windows95を設計した日本人として知られるエンジニアの中島聡さんが分かりやすく解説します。

「世界モデル（World Model）」って何だ？

少し前にもこのメルマガで触れましたが、人工知能とWorld Model（世界モデル）について考えていることを書いてみたいと思います。

World Modelとは、元々は、個々の人間（もしくは動物）が経験を通して学んだ「世の中がどうなっているか、どんな仕組みで動いているか」を心の中でモデル化したもので、メンタルモデルと呼ばれることもあります。具体的には、

重さがあるものは下に落ちる、投げたものは放物線を描いて下に落ちる
水には粘性がある、水の中では息ができない
水は冷たい場合が多いが、湯気が出ている水は熱い
海の水はしょっぱい
世の中のものは３次元構造を持っており、見る方向によって見え方が違う
火は触ると熱くて、燃え移ることがある
太陽の光は温かく、長い時間当たっていると日焼けしてしまう

などなどです。理科や化学の授業で学んだ物理の法則ではなく、純粋に経験則で学んだものを指します。

人工知能の研究が進むうちに、これと同様のことが人工知能の中でも起こっているらしいことが分かってきました。

経験を通して知識を習得しはじめたAI

LLM（大規模言語モデル）は、単に与えられた文字列を見て次の単語を予想するだけの単純な仕組みですが、パラメータ数を増やし、学習データを増やしたところ、次第に様々な「知識」を習得するようになり、それを一部の研究者たちが「人工知能の中にWorld Modelが作られつつある」と表現したのです。

これに関しては、最初は研究者たちの間でも意見が分かれました。

当初は、「LLMは単に統計的に次の単語を予測しているだけで、World Modelなど持っていない」と主張する研究者もいましたが、今では、「LLMがやっていることは学習データの『圧縮』であり、その結果、ニューラルネットの中にWorld Modelが作られる」という見方が主流です。

LLMは、大規模化が進むにつれ、それを作っている開発者たちも驚かせるような能力を発揮しました。

研究者たちは、それらの能力が学習の結果「出現する（emerge）」という言葉を使って、その驚きを表現しましたが、まさにWorld Modelは、研究者たちが意図しなかったにも関わらず、LLMの中に出現してしまったのです。

このプロセスは、赤ん坊が世の中の様々な仕組みを理解して行くプロセスと似ていると言えます。

赤ん坊は、母親から教わらなくても、ものが下に落ちることは理解するし、（物理の授業を受けなくても）上に投げたものが放物線を描いて下に落ちることは理解します。つまり、経験を通して、赤ん坊の中にWorld Modelが「出現する」のです。

AIの「世界モデル」が急速に進化しはじめた理由

研究者たちは、単に文章データだけを扱うLLMに出現するWorld Modelには限度があることを知っていました。

「相対性理論とは何か」を大学教授のように説明できるLLMが、「その駐車スペースは小型車用だったけど十分に『〇〇〇』ので、そこに駐車することにした」という文章の空白を埋めるような単純な問題が解けないのは、文章データだけから作られる World Model に限界があるからです。

そこで、研究者たちが力を入れたのが、画像も処理できるマルチモーダルな人工知能の開発です。

赤ん坊が耳からの情報だけでなく、目からの情報を使って World Model を取得するように、人工知能にも目を与えることにより、よりリッチなWorld Modelを作ることを目指したのです。

間もなくUnity等の物理エンジンに並ぶか

最初に作られたのは、Dall.E、Midjourneyなどの画像生成AIです。

これらはLLMで使われているTransformerではなく、Diffusionという仕組みを使って、ノイズを除去する形で画像を生成するものでした。

結果として、人の顔はどうあるべきか、犬の特徴は何か、などの「知識」を持った人工知能が作られることになりました。

LLMのそれとは異なりますが、広い意味でも World Model が出現していると言えます。

このマルチモーダルな World Model の構築を大きく一歩進めたのが、２週ほど前に紹介したOpenAI のSoraです。

Soraは、TransformerとDiffusionを組み合わせ、LLMが文字列を生成するように、映像を時間軸に沿って生成することができる人工知能ですが、公開されたサンプルを見て分かる通り、「カメラを動かすと見え方がどう変わるか」「犬の毛はどう揺れるか」「海岸に打ち寄せる波はどう動くか」などの World Model が Soraのニューラルネットの中に出現していることが分かります。