オープンの台頭
セス・グリーフ=アルバート
フォローする
QMIND テクノロジーのレビュー
--
聞く
共有
テクノロジーは興味深い現象です。 それは、隠されたりアクセスできなかったりしながら、何らかの形でかなり長い間存在する可能性がありますが、ある日、完全な形で出現し、大衆によって貪欲に消費されるようになるまでです。 21世紀の最新のゴールドラッシュが到来しています。 市場化された人工知能 (AI) の時代は加速しており、それに伴い、その潜在的な力と利益をめぐる戦いが繰り広げられています。
異常な普及を遂げた「AI」は、その特定のサブセットである大規模言語モデル (LLM) としてラベル付けされる方が適切ですが、大衆文化には、この分野全体に定着する流行語を割り当てる方法があります。 多くの人は、通常の Twitter フィードや技術ブログではなく、メディアや家族から初めて「この新しい AI テクノロジー」について聞いたかもしれません。それは市場への普及の速さです。 AI の分野は何年にもわたって驚くべき進歩を遂げてきましたが、消費者が爆発的に増加したのは、OpenAI が ChatGPT を Web ページで一般公開した 2022 年 12 月上旬から中旬だったようです。 次のグラフがそれを物語っています。
人々が AI テクノロジーと対話し、AI テクノロジーを使用することに飢えていることは明らかです。 このビジュアルを見る自分が開発者、巨大テクノロジー企業の幹部、またはスタートアップの創設者であると想像してください。 歴史を借りて、現在の AI の時代を中世に喩えることができます。 支配者たちは権力と富を掌握し城を守ったが、平民は排除された。 時折、放浪する野蛮人が支配者を簒奪しようと試みることもありました。 大企業 (Google、メタ、マイクロソフトなど) が玉座の座に就き、開発者や学者は部外者の役割を果たします。 この物語はどのように展開するのでしょうか? 2023年の初めに戻りましょう。
ChatGPT がリリースされてから 1 か月以上が経ち、大規模言語モデルに関する誇大宣伝が本格化していました。 しかし、LLM とは正確には何でしょうか? これらは、「基礎モデル」、つまり膨大な量のテキスト データに対して長いトレーニング期間を経た特殊なアルゴリズムとして始まります。 このプロセスの結果、言語のクエリに合理的な答えで応答できるモデルが得られます。 これらのモデルには多数の重みとパラメータがあり、私たちの目的では、これらはトレーニングで学習されたすべてのパターンと考えることができます。 これらの重みとパラメータは順応性があり、微調整できます。 ここで、LLM は一般的なテキストの再構築よりも特殊なタスクにさらされます。 これまでに確認した最も一般的な微調整タスクは自然な会話でしたが、次点は言語モデルがテキストの指示に従うことです。
ChatGPT の基礎モデルは GPT-3 です。これは、ヒューマン フィードバックによる強化学習 (RLHF) を使用して対話的に対話できるように改良され、GPT-3.5 になりました。 本質的に、実際の人々は、LLM が提供した多数の応答に目を通し、実際の会話に最も類似した応答を選択しました。 この人間参加型の微調整により、予測テキストのモデル (すでに 1 年以上存在していました) が、今日私たちが知っている世界的な驚異に変わりました。 微調整は、データの混沌を一見の秩序に変えることができる強力なツールです。
しかし、OpenAI だけがゲームに参加したわけではありません。 Meta は静かに作業を続け、独自の基盤モデルのリリースを準備していました。 2023年2月24日、LLaMA(Large Language Model Meta AI)が世に送り出されました。 物事が思い通りにいかないのに、それほど時間はかかりませんでした。
1 週間未満で早送りします。 2023 年 3 月 2 日の午後、AI 分散化の新たな始まりが始まりました。LLaMA の重みを含むファイルが、ソーシャル メディア サイト 4chan 上の匿名ユーザーによって一般に漏洩されました。 これが爆発的な関心を引き起こし、AI の世界に旋風を巻き起こしました。 重みがインターネットを越えて GitHub と HuggingFace の領域、つまりそれぞれソフトウェアと AI のインターネットのトップページに到達するまでに、それほど時間はかかりませんでした。
水門は開いていた。 LLaMA の重みを誰でも簡単に操作できるため、誰でも手に渡された基礎モデルのパワーを活用することができます。 オープンソース ソフトウェアは、個人がグローバル ネットワーク上でコードを開発するためにアクセスできます。 世界中の誰もが大規模な百科事典を編集できるウィキペディアのことを考えてください。オープンソース ソフトウェアの百科事典は、分散型コードベースと考えることができます。 これはパブリックでサイロ化されていないため、アクセスしやすく、世界中のソフトウェア開発者にとって非常に人気があります。 AIの実験にも最適なシャーレです。
スタンフォード大学は LLaMA の活動にすぐに参加しました。 最初のリークから、彼らは言語モデルの微調整に 1 週間ほど取り組んでおり、それを ALPACA と名付け、3 月 13 日にリリースしました。 600 ドルという驚異的な低コストで、言語モデリングの人気分野である命令追従において最先端の結果を効果的に達成しました。 しかし、それらは依然としてメタの著作権に拘束されていましたよね? そうですね。 ALPACA と並んで、新しい重みは低ランクの微調整の採用を促し、これにより Meta の所有権からの自由が可能になりました。 この戦略により、誰でもスタンフォード大学のプロセスを消費者向けハードウェア上で驚くほど短期間で再現できるようになりました。つまり、頑丈なコンピュータと数時間の話です。
LLaMA ベースのアプリケーションの猛攻の中で、Nomic AI と呼ばれる確立された開発者グループが記念碑的なプロジェクト GPT4All をリリースしました。
GPT4All は、消費者グレードの CPU 上でローカルに実行される、強力でカスタマイズされた大規模な言語モデルをトレーニングおよびデプロイするためのエコシステムです。
– ノミックAI
現在、収集された言語モデルと不正なデータからブートストラップされたこのオープンソース エコシステムにより、さらに多くの人が自分で構築できるようになりました。 インターネットに接続せずに LLM を実行したいですか? 了解しました。 プライバシー? 内蔵。
この AI の祭典により、オープンソースはすべて活況を呈しており、日に日に高速化、低コスト化、分散化が進んでいます。 これは一部の大手プレーヤーの注目を集めました。 5月4日、Googleから「We Have No Moat and Noither Does OpenAI」というタイトルの内部文書が流出した。 この機関の研究者の意見は、2023 年初頭以降の LLM 開発の速いペースを記録し、オープンソースが Google 研究 (より具体的には Google Deepmind) と直接競合する理由を主張しました。 名ばかりの「堀」は、中世の城のたとえ話と見事に結びついています。大手テクノロジー企業は、オープンソースの世界にAIの進歩が遅れをとっているように見えるとき、どうやって自社のAIの進歩を守ればよいのでしょうか?
「彼らが私たちを必要とする以上に、私たちは彼らを必要としている」
Google の AI 研究者の立場になってみましょう。 数日から数週間のタイムスケールでオープンソース AI 研究が加速するのを間近で追っていると、よりゆっくりとした慎重なペースで仕事をしていると認識されている大企業の一員として取り残されているように感じるかもしれません。 それは、大企業がどのように構造化されているかであるためです。綿密な市場分析、既存のポリシーへの準拠、戦略的義務。 遍在する AI の誇大広告の旋風に抵抗するのは確かに困難です。
その性質上、民間企業は競争上の優位性を維持するために人材をサイロ化します。 OpenAI は非営利団体としてスタートし、一般向けの研究を推進していますが、現在は民間団体として貴重な進歩を秘密にしています。 しかし、ビッグテックの比喩的なサイロは実際に脅威にさらされているのでしょうか? 城はオープンソースの野蛮人によって侵略される運命にあるのでしょうか、それとももっと壊滅的に時代遅れになってしまうのでしょうか?
むしろ、これらの城は当然守りがしっかりしていると思います。 ビッグテックの競争上の優位性がこれほど早く終わると想像するのは無責任かもしれない。 市場におけるこれら巨人の立場を強固にするいくつかの「堀」を見てみましょう。
ユーザー:現在生きている人類の半数以上が Google ユーザーです。 また、天文学的な数の人々が Microsoft、Meta、そして現在は OpenAI の製品やサービスを使用しています。 正直に言うと、ほとんどの人はオープンソース ソフトウェアの最先端を操作する方法を知りませんし、ましてや「GitHub リポジトリをフォークする」ということが何を意味するのかも知りません。 ChatGPT が世界規模で活動するには直感的なインターフェイスが必要でした。技術の進歩と技術の導入を混同しないように注意する必要があります。 人々はすでに生活の中に存在するソフトウェアに慣れています。 たとえサードパーティのオプションの方が安価であったり、より高度であったり、よりプライベートなものだったとしても、ほとんどの人は、使い慣れた信頼できるパッケージを信頼するでしょう。
アクセシビリティは、消費者にリーチする上で非常に重要です。 これを例示した画像生成 AI の最近のアプリケーションを振り返ることができます。Lensa AI は、2022 年 11 月下旬の ChatGPT のリリースと同時にリリースされました。既存の写真アプリを通じてリリースされた Lensa では、自分の写真を数枚アップロードすることができました。 AI によって生成された多数のアバターを受け取ります。 このアプリは爆発的に成長し、驚くほど短期間で巨額の利益を上げました。 この同じ写真からアバターへのコンセプトは、Lensa のリリースの数週間前にすでに存在していたことが判明しました。違いは、既存のアバター生成プラットフォームがアプリではなく Web サイト上にあったことです。 画像生成 AI に興味のある消費者には、コンピューターではなくモバイル デバイスを通じてアプローチするのが最適でした。 興味深いことに、画像生成市場のボトルネックになっていたものが、LLM の繁栄を可能にしたのです。 OpenAI は、シンプルな Web ページを通じて ChatGPT を一般公開しました。 この展開の違いについてのもっともらしい説明は、ユーザーにとっての最終結果でした。 クールなアバターを生成して友達に送るのは携帯電話では簡単ですが、ChatGPT のようなプログラムを使って宿題をするのは Web の方が便利です。 Microsoft は OpenAI が設定した例に従い、ブラウザを通じて数百万のユーザー ベースに Bing Chat をリリースしました。
コンピューティング プラットフォーム:最近、AI が機関車に似ているとすれば、コンピューティング パワーはその石炭であるというたとえ話を聞きました。 産業革命の歴史を振り返ると役に立つかもしれません。 誰が金持ちになっていたのでしょうか? 産業の設立はもちろん儲かりましたが、当時の特徴である大規模な石炭採掘事業についても考えてみましょう。 実際、大規模な AI モデルをホストするには、豊富なエネルギーと堅牢なインフラストラクチャが必要です。 このような極端な需要に本当に対応できる唯一の主体は、クラウドを備えた Google、Microsoft の Azure、Amazon の AWS などの大手テクノロジー企業です。 オープンソース研究が革命的なスタイルで個々の AI 研究所を圧倒する場合でも、これらの巨人は弾薬を販売します。
世界クラスの研究開発:最大手のテクノロジー企業は、さまざまな AI 分野の優秀な人材を狙撃しています。 オープンソースと特定の研究機関との違いは、優れた研究が膨大にあることです。LLM の場合、これは、優れた品質のより集中的な研究よりもある程度の利点があるようです。 最良のサイロは、必要なときに信じられないほど効果的です。
大手テクノロジー企業の競争力は、すべてのコストとして利益を追求することです。 これらは機械であり、データを収益に変えるために絶えず動作します。 少なくともこれらの企業の頭の中では、不正な開発者コミュニティが彼らの邪魔をしないことが明らかになりつつあります。 彼らが望むすべての信頼できるユーザー、モデルをホストして配布する権限、そして次世代の AI 研究の可能性を考えると、これらの競争で強化された砦の崩壊が差し迫っていると公言するのは世間知らずでしょう。
AI の進歩状況を考慮する必要があります。 LLM は変圧器モデルに基づいて構築されており、これらのモデルに関する進歩は可能性の表面をなぞっただけです。 トランスフォーマーは、2017 年の独創的な論文「attention is all you need」を通じて世界に紹介されました。 研究は木に登ることと想像するとわかりやすいかもしれません。変圧器の木は非常に高く、たくさんの実を結んでいるように見えます。
今は儲かっていますが、最終的には、次世代の基礎モデルとそれに伴う修正を先導する新しい木を植える必要があるかもしれません。 人工知能の一般的な機能を向上させる上で、おそらく言語モデルがすべてではありません。 これらのモデルに関する誇大広告が消滅するシナリオでは、膨大な量の画期的な研究がすでにそこから生まれているという事実さえあれば、私は Google や OpenAI などの研究機関が新たな進歩を遂げていることに資金を賭けるでしょう。
5 月 4 日の文書漏洩以来、Google の展開戦略に関して多くのことが起こりました。 年次開発者ショーケース イベントである最近の I/O では、AI が主要テーマでした。
現在の知識に基づいて AI の将来を予測することは、とらえどころのない課題です。 最先端の人工知能の力が倫理的な主体の手に分配される可能性はあるのでしょうか? 基礎モデルのトレーニングには非常に費用がかかり、ほぼすべて大企業が引き受けます。 それが近い将来に大きく変わる可能性は低いと思われます。 研究とテクノロジーを消費者に提供することに重点を置く場合、最も重要なのは市場への提供手段であるように思われます。 ただし、区別する必要があります。研究開発は必ずしもテクノロジー導入の目標と一致しているわけではありません。 ビッグテックは、人々が日常生活で AI を利用できるようにする能力においてのみ、強力なプレーヤーであり続けるでしょう。
私たちは、オープンソースを通じて競争力のあるリソースへのアクセスが一般に許可されると、驚くべき進歩が非常に早く起こる可能性があることを見てきました。 AI 研究者が自分のアイデアをより迅速に実装段階に持ち込み、自分の分野の最前線に取り組むために多大な労力を費やすことができる世界を想像してみてください。 適切なガイドラインがあれば、これは最先端の研究を企業が独占するモデルよりも望ましいと思います。
ここで疑問が生じます。私たちはどのような世界に近づいているのでしょうか? 研究者や開発者は、基礎モデルを提供してくれる巨大企業に依存し続けるのでしょうか? オープンソース AI の状況はどのように進化し、時の試練に耐えられるのでしょうか? これらの質問には明確な答えがありません。 一つ明らかなことがあるとすれば、それは、私たちはまだこのパラダイムの始まりにすぎないということです。
どこまでも行き着く道はどこにも通じていない。 それが山であることをテストするために、少しだけ山に登ってください。 山の頂上からは山は見えません。
– フランク・ハーバート | 砂丘
ご質問やコメントがございましたら、お気軽に LinkedIn までご連絡ください。
この記事は、破壊的テクノロジーと人工知能の分野でカナダ最大の学生が運営する組織である QMIND のために書かれたものです。
ユーザー: コンピューティング プラットフォーム: 世界クラスの研究開発: