生成AIは、もはやクラウドが必須のものではありません。NXPのeIQ® GenAI Flow により、開発者は、組込みエッジ・デバイスでLlamaやQwenなどの大規模言語モデル (LLM) をセキュアに、効率的に、データの近くで実行することができるようになりました。このパラダイム・シフトは、自動車から産業オートメーションまで、業界をまたいでリアルタイム・インテリジェンスの新たな可能性を切り拓きます。
eIQ GenAI Flowは、包括的なソフトウェア展開パイプラインとして構築されており、かつては困難であった、電力やコンピューティングの面で制約のあるシステムへの生成AIモデルの実装を容易にします。NXPのeIQ Neutron NPUによる量子化などの最新のモデル最適化手法とハードウェア・アクセラレーションを兼ね備えており、エッジでの生成AIを実用化および高性能化します。
よりスマートなAIをローカルに実装
その中核として、GenAI Flowは、これまで障壁となっていた組込み環境での高度なモデルの実行を克服することに役立ちます。このパイプラインは、今日において最もパワフルなオープンソースの言語モデルを既に実現しており、マルチモーダルな視覚言語モデル(Vision-Language Model:VLM)もまもなくサポートされる予定です。GenAI Flowは、i.MX 95のようなアプリケーション・プロセッサでリアルタイムの実行をすぐに実現するために必要な最適化を提供します。対話型AIやフィジカルAIなどにとって、このパフォーマンスは不可欠です。
8ビット整数 (INT8) や4ビット整数 (INT4) など、精度を維持する量子化手法を用いることで、推論の高速化のためにニューラル・プロセッシング・ユニット (NPU) を最大限に活用することが可能になります。GenAI Flowを使用すると、デバイスの応答速度や電力効率が劇的に向上します。例えば、あらゆる生成AIアプリケーションの主な指標となる応答開始までの時間(Time to First Token:TTFT)は、Arm Cortex CPU(Float32の精度)での9.6秒と比較して、INT8の量子化を備えたNeutron NPUでは1秒未満まで短縮されます。これにより、電力消費量が大きいサーバーやクラウドのインフラを必要とすることなく、リアルタイムのAIによる魅力的なエクスペリエンスを実現します。
生成AIはエッジでのイノベーションを牽引します。NXPのeIQ Toolkitに含まれているGenAI Flowは、エッジでの生成AIを容易かつセキュアに実現します。
GenAI Flowは、より軽量ながらも質の高い結果をもたらす小規模言語モデル(Small Language Model:SLM)もサポートしています。このパイプラインは、CPU、NPU、あるいはそのハイブリッド構成にわたって柔軟な実行を提供し、開発者がプロジェクト独自のニーズに応じてパフォーマンスを調整することを可能にします。
RAGでコンテンツを追加
GenAI Flowの際立った特徴として、検索拡張機能(Retrieval-Augmentation Generation:RAG)のサポートを内蔵していることが挙げられます。この形式のモデル・ファインチューニングは、元のモデルを再トレーニングする必要なく、LLMがデバイスやサービスのマニュアル、社内のPDF文書、設備のメンテナンス・ログなどのドメイン固有またはプライベートなデータ・ソースにアクセスすることを可能にします。RAGは、関連する外部知識をベクトル・データベースとしてエッジ・デバイスに注入することで、よりコンテキストに基づいた根拠のある回答を導き出し、それによりAIのハルシネーションの問題を排除し、判断の誤りを防ぎます。
RAGは、すべてのデータがローカルで処理されるため、エッジのユース・ケースでとりわけ大きな力を発揮します。機密性の高い情報を保護すると同時に、ダイナミックでオンデマンドのAIの回答を実現します。極めてコンパクトなLLM対応のデータベースに新しい文書を取り込むだけで、モデルが直ちにさらなるコンテキストを導入します。再トレーニングは必要ありません。この効率性だけでも、データ・センターで生成AIのファインチューニングの多数のイテレーションに費やされる数百万ドルのコストとエネルギーを削減することが可能です。
自動車からロボットまで、実世界でのインパクト
GenAI Flowは、低レイテンシのパフォーマンスやデータのプライバシー保護が不可欠な複数の業界で既に活用されています。
自動車業界においては、AI搭載インフォテイメント・システムが車両に組み込まれ、サービス・マニュアルを参照することで自然言語による音声コマンドに対応しています。これにより、典型的なコネクティビティを必要としない、ハンドフリーのシームレスなエクスペリエンスがもたらされます。
ヘルスケア業界においては、タッチレスのAIインターフェースを通じて、医療従事者が音声プロンプトによりセキュアに手順や患者のデータにアクセスできるようになっています。これは、配慮が必要な環境において、患者との接触やコンタミネーションのリスクを低減するために最適なソリューションです。
AICHI(AI Controller for Health Insights:ヘルス・インサイト用AIコントローラ)は、マルチモーダルな健康データやセンサ・データをリアルタイムでセキュアに収集および分析することで、早期に異常を検出し、プロアクティブでパーソナライズされたケアを可能にします。
モバイル・ロボティクスにおいては、生成AIモデルが光学文字認識(Optical Character Recognition:OCR)およびRAGを使用して書面による指示や視覚入力を解釈し、コンテキスト・アウェアな動作を実現しています。これらのシステムは、基本的な自動化といった枠組みを超えて、人間と環境との間のインテリジェントなインタラクションをもたらしています。
この3D知覚センサ・フュージョンのデモは、エッジでの信頼できる空間認知を示し、動的で不確実な環境でも動作できます。
産業オートメーションにおいては、リアルタイムのセンサ・データやメンテナンス文書を使用して、AIのアシスタントが技術者による機械の問題のトラブルシューティングをサポートしています。これらはすべて、リモートまたは低帯域幅の環境であっても、ローカルで処理されます。
GenAI Flowは、上記のようなあらゆる状況で、インテリジェントなエッジ・ソリューションを構築するためのパワフルかつプライバシーに配慮したフレームワークを開発者に提供します。
エッジでの生成AIの次なる波は?
エッジでの生成AIの次なる進化は、マルチモーダルとエージェント型です。これからのシステムは、音声、視覚、言語による入力を融合させることで、より豊かでより直感的なユーザー・エクスペリエンスを生み出します。GenAI Flowにより、この融合は既に進行中であり、入力タイプの組み合わせによって思考し、行動する、一元化されたエッジ・パイプラインが実現しています。
さらには、より大規模なモデルへの対応の拡充とより小規模なモデルの高速化の両方における、エッジAIのパフォーマンスの継続的な最適化にも大きな重点が置かれています。これには、量子化の強化、実行の柔軟性、小型化が進むLLMアーキテクチャへの対応が含まれます。
AIシステムの適応性が向上し、ローカルで動作可能になるにつれて、最適なツールへのアクセスがこれまで以上に重要となります。GenAI Flowはスケーラビリティを念頭に置いて設計されており、開発者が今日の急速に進化するAIの機能をマイクロプロセッサ・ユニット (MPU) プラットフォーム全体にわたる製品に統合し、やがてはそれをマイクロコントローラ・ユニット(MCU) クラスのデバイスにまで拡張できるよう後押しします。