ビジョントランスフォーマーは新しい「パッチ」で課題を克服

Dec 17, 2023

発行済み

の上

による

人工知能 (AI) テクノロジー、特にビジョントランスフォーマー (ViT) は、画像内のオブジェクトを識別して分類する能力に大きな期待を寄せています。しかし、その実用化は、高い計算能力要件と意思決定における透明性の欠如という 2 つの重大な課題によって制限されてきました。今回、研究者のグループが画期的なソリューションを開発しました。それは、「パッチ対クラスターアテンション」(PaCa) として知られる新しい方法論です。 PaCa は、画像オブジェクトの識別、分類、セグメンテーションにおける ViT の機能を強化すると同時に、計算需要と意思決定の明確さという長年の問題を解決することを目指しています。

トランスフォーマーは、その優れた機能により、AI の世界で最も影響力のあるモデルの 1 つです。これらのモデルの能力は、視覚的な入力でトレーニングされるトランスフォーマーのクラスである ViT を通じて視覚データに拡張されています。 ViT は画像の解釈と理解において多大な可能性を秘めていますが、いくつかの大きな問題によって妨げられてきました。

まず、膨大な量のデータを含む画像の性質上、ViT はかなりの計算能力とメモリを必要とします。この複雑さは、多くのシステムにとって、特に高解像度の画像を処理する場合には圧倒される可能性があります。第二に、ViT 内の意思決定プロセスは複雑で不透明であることがよくあります。ユーザーは、ViT が画像内のさまざまなオブジェクトや特徴をどのように区別するかを理解するのが難しいと感じています。これは、多くのアプリケーションにとって重要です。

ただし、革新的な PaCa 手法は、これら両方の課題に対する解決策を提供します。「私たちは、クラスタリング技術を使用して、計算量とメモリの需要に関連する課題に取り組んでいます。これにより、トランスフォーマアーキテクチャが画像内のオブジェクトをより適切に識別し、焦点を合わせることができるようになります」と、この研究に関する論文の責任著者であり、同大学の准教授である Tianfu Wu 氏は説明します。ノースカロライナ州立大学で電気およびコンピュータ工学を専攻。

PaCa でクラスタリング技術を使用すると、計算要件が大幅に軽減され、問題が二次プロセスから管理可能な線形プロセスに変わります。 Wu 氏はさらに、このプロセスについて次のように説明しています。「クラスタリングによって、これを線形プロセスにすることができます。各小さなユニットを所定の数のクラスターと比較するだけで済みます。」

クラスタリングは、ViT における意思決定プロセスを明確にするのにも役立ちます。クラスターを形成するプロセスは、画像データのセクションをグループ化する際にどの特徴が重要であるかを ViT がどのように決定するかを明らかにします。 AI は限られた数のクラスターのみを作成するため、ユーザーは意思決定プロセスを簡単に理解し、検討することができ、モデルの解釈可能性が大幅に向上します。

研究者らは、包括的なテストを通じて、PaCa 手法がいくつかの面で他の ViT よりも優れていることを発見しました。 Wu 氏は、「あらゆる面で PaCa が SWin や PVT よりも優れていることがわかりました」と詳しく述べています。テストプロセスでは、PaCa が画像内のオブジェクトの分類と識別、およびセグメンテーションに優れ、画像内のオブジェクトの境界を効率的に輪郭を描くことが明らかになりました。さらに、他の ViT よりも時間効率が高く、タスクを迅速に実行できることがわかりました。

PaCa の成功に励まされた研究チームは、より大規模な基礎データセットで PaCa をトレーニングすることで、その開発をさらに進めることを目指しています。そうすることで、画像ベースの AI で現在可能なことの限界を押し広げたいと考えています。

研究論文「PaCa-ViT: ビジョントランスフォーマーにおけるパッチ対クラスターアテンションの学習」は、次回開催されるコンピュータビジョンとパターン認識に関するIEEE/CVFカンファレンスで発表される予定です。これは、より効率的で透明性があり、アクセスしやすい AI システムへの道を切り開く重要なマイルストーンです。

AIのリスクと堅牢なAI規制の緊急性を強調するテクノロジーリーダー

Alex McFarland は、ブラジルを拠点とするライターで、人工知能の最新の開発について取り上げています。彼は、世界中のトップ AI 企業や出版物と協力してきました。

何でもモデルをセグメント化 – コンピュータービジョンが大幅に強化

2022 年の 5 つのコンピュータービジョンアプリケーション

コンピュータービジョンで「融合した」人間を分離する

AI を使用して長い「ハウツー」ビデオを要約する

研究者が水陸両用人工視覚システムを開発

AI表情評価でメンタルヘルス不調を診断

前: 2023 年に最適な LED 景観照明キット次: 主要企業Kingspec、KDATA、Sunyogroup、Adam Elements、Dmlife、SanDiskなどの分析を含むiOS Phone USBフラッシュディスク市場2023年の動向

お問い合わせを送信

送信