banner

ブログ

Aug 29, 2023

OpenAI のムーンショット: AI 調整問題の解決

7月、OpenAIは「スーパーアライメント」に関する新たな研究プログラムを発表した。 このプログラムには、AI アラインメントとして知られるこの分野で最も困難な問題を 2027 年までに解決するという野心的な目標があり、OpenAI はその総コンピューティング能力の 20 パーセントをこの取り組みに費やしています。

AI の調整問題とは何ですか? それは、AI システムの目標が人間の目標と一致しない可能性があるという考えであり、超知能 AI システムが開発された場合には、この問題はさらに深刻になるでしょう。 ここで人々は人類の絶滅のリスクについて話し始めます。 OpenAI のスーパーアライメント プロジェクトは、人工超知能システムの調整というより大きな問題に焦点を当てています。 OpenAI がブログの紹介記事で述べたように、「AI システムを私たちよりもはるかに賢く操縦し、制御するには、科学的および技術的なブレークスルーが必要です。」

この取り組みは、OpenAI のアライメント研究責任者の Jan Leike 氏と、OpenAI の共同創設者で主席科学者の Ilya Sutskever 氏が共同で主導しています。 ライク氏は IEEE Spectrum に対し、この取り組みについて語った。この取り組みには、調整問題の解決に役立つ、調整された AI 研究ツールを構築するという副目標がある。

ヤン・ライクは次のとおりです。

IEEE Spectrum: アライメントの定義から始めましょう。 アライメントされたモデルとは何ですか?

OpenAI のアライメント研究責任者である Jan Leike 氏は、人工超知能が誕生する前にその先を行くという同社の取り組みの先頭に立っている。OpenAI

ジャン・ライク:私たちがアラインメントでやりたいことは、人間の意図に従い、人間が望むことを実行するモデルを作成する方法を見つけ出すことです。特に、人間が何を望んでいるのか正確にわからない状況で。 これはかなり有効な定義だと思います。なぜなら、次のように言えるからです。「たとえば、パーソナル ダイアログ アシスタントが調整されるとはどういう意味ですか?」 まあ、それは役立つはずです。 嘘をついてはいけません。 私が言ってほしくないことを言うべきではありません。」

ChatGPT は調整されていると言えますか?

のように: ChatGPT が調整されているとは言えません。 私は、整列は、何かが整列しているか整っていないかのような二元的なものではないと考えています。 私はこれを、非常にずれたシステムと完全に調整されたシステムの間のスペクトルとして考えています。 そして、[ChatGPT を使用すると]、多くの場合、明らかに役立つ中間のどこかにいます。 しかし、いくつかの重要な点で依然としてずれています。 脱獄すれば幻覚が現れる。 そして、時にはそれが私たちの気に入らない方向に偏っていることもあります。 などなど。 やるべきことはまだたくさんあります。

「まだ初期の段階です。 特に本当に大きなモデルの場合、自明でないことを行うのは非常に困難です。」—Jan Leike、OpenAI

ずれのレベルについて話しましょう。 あなたが言ったように、ChatGPTは幻覚を起こし、偏った応答を与える可能性があります。 つまり、それは 1 つのレベルのずれです。 別のレベルは、生物兵器の作り方を教えるものです。 そして第3レベルは、人類の滅亡を決意する超知能AI。 さまざまな害悪の範囲の中で、あなたのチームが実際に影響を与えることができるのはどこでしょうか?

のように:うまくいけば、それらすべてに当てはまります。 新しいスーパーアライメント チームは、今日私たちが抱えているアライメントの問題にはあまり焦点を当てていません。 OpenAI の他の部分では、幻覚やジェイルブレイクの改善に関して多くの素晴らしい取り組みが行われています。 私たちのチームが最も注目しているのは最後の点です。 人類の権利を剥奪するほど賢い将来のシステムがそのような行為をするのをどうやって防ぐのでしょうか? あるいは、これらの他のすべての位置合わせの問題を解決する方法を見つけることができるように、自動位置合わせ研究を支援できるようにそれらを十分に位置合わせするにはどうすればよいでしょうか。

ポッドキャストのインタビューで、GPT-4 は実際には位置調整に役立つわけではない、とおっしゃっていましたが、試してみたのでわかるでしょう。 それについて詳しく教えてもらえますか?

のように:もっとニュアンスのある発言をすべきだったかもしれない。 私たちはそれを研究ワークフローで使用してみました。 決して役に立たないわけではありませんが、平均して、研究に使用する正当な理由があるほど役に立ちません。 新しい位置合わせプロジェクトのプロジェクト提案書を作成するためにこれを使用したい場合、モデルは位置合わせを十分に理解していないため、役に立ちませんでした。 そしてその原因の 1 つは、位置合わせのための事前トレーニング データがそれほど多くないことです。 時には良いアイデアが浮かぶこともありますが、ほとんどの場合、役に立つことは何も言えません。 これからも努力していきます。

共有