How do I get started with VIT?

VIT wake word and Voice Command Engine can be accessed through online tools and our MCUXpresso SDK. For VIT Speech to Intent, please contact us at voice@nxp.com with your specific requests.

Does NXP have voice software application examples?

Yes, visit our application software pack page or our Application Code Hub. You can also view demo videos showcasing our voice software.

What is the difference between voice UI and voice communications?

Voice UI refers to “voice-first” devices that use voice as a user interface. NXP's Voice UI software technologies are VIT, VoiceSpot and VoiceSeeker. Voice communications refer to two-way person-to-person communication using voice; i.e., telephony. NXP's Voice communications software technology is Conversa.

What is the difference between VoiceSpot and VIT? When should you use one versus the other?

VoiceSpot is a very accurate, highly optimized wake word and acoustic event detection engine. It is based on deep learning neural network techniques and requires large datasets for training. VoiceSpot is appropriate for customers who need the highest response rates with the fewest false alarms and is also appropriate for customers who need to run in ultralow power states while waiting for the voice / acoustic trigger. VIT software suite is built on phoneme-based automatic speech recognition technology. This technology maps spoken phonemes (the basic building blocks of speech) into words, which can then be recognized as wake words and commands and transformed into intents and actions. Because VIT is based on phonemes, it is possible to create wake words and command models quickly with a keyboard and NXP's online model creation tools. VIT wake word and Voice Command Engines are appropriate for customers who want to build custom wake words and voice commands independently or those who want to quickly experiment with voice as a user interface. VIT Speech to Intent is for customers who want to create a natural language understanding like experience on edge processors without the use of cloud connectivity and cloud ASR transcription services.

What is VoiceSeeker and how do you use it?

VoiceSeeker is a multi-microphone beamforming audio front end signal processing solution for voice user interfaces. VoiceSeeker discriminates between signal and noise and is especially effective in far-field, reverberant conditions. VoiceSeeker is offered in a standard free-to-use option and a premium option. VoiceSeeker without AEC is freely available via NXP's MCUXpresso SDK and integrates easily with VoiceSpot or VIT. The premium VoiceSeeker option includes an acoustic echo canceler (AEC) and is available via controlled distribution from NXP. VoiceSeeker is frequently used in far-field voice control applications like smart speakers and home controllers but can also be used in the mid- and near-field where interfering noise needs to be cancelled.

音声処理

エッジでの音声処理を実現する包括的なソフトウェア。

アプリケーション
製品
設計・リソース
ドキュメント
よくある質問 (FAQ)

NXPの組込み音声通信スイート。

NXPは、ヒューマン・ツー・ヒューマン (H2H) およびヒューマン・ツー・マシン (H2M) のローカル音声アプリケーション向けの高品質で信頼性の高い組込み音声処理を実現する、音声制御、オーディオと通信用ソフトウェアおよびソリューションを幅広く提供しています。NXPの音声通信ソフトウェア製品は、NXPのMCU、MPU、DSPポートフォリオで動作する省フットプリントで低消費電力のアプリケーション向けに設計されています。

音声処理アプリケーション

インダストリアル

民生機器

音声処理製品

音声処理ソフトウェア・ポートフォリオ

オーディオ処理

再生およびチューニング用の高度なオーディオ・ツール：イコライザ、3Dサウンド、低音域/高音域エンハンスメント、リミッタ、ステレオPCMのサポート。

Essential Audio Processing

オーディオ・フロントエンド

ハイパス・フィルタリング、ビームフォーミング、アコースティック・エコー・キャンセルにより、ウェイクワード、ASR、AIチャット向けに最適化されています。

Conversa音声スイート

対話型AI

エンド・ツー・エンドの音声AI：ウェイクワード検出、ASR、コンテキスト・アウェアな応答のためのRAG強化型LLM、自然な音声出力のためのTTS。

エッジ・デバイスでのマルチモーダル生成AIを実現可能

音声通話

完全なAIパイプライン：ウェイクワード検出、ASR、スマート応答用のRAG強化型LLM、TTS出力、マニュアルからのチャットボットのファインチューニング。

Conversa音声スイート

音声ユーザー・インタラクション

包括的な音声ソリューション：ウェイクワード検出、音声コマンド、speech-to-intent (S2I)、ASR書き起こし、TTS変換。

音声強調

小規模および大規模AIモデルを使用したスマート・ノイズ・リダクションやエコー・キャンセルにより、一方向または全二重通信でのクリアな音声を実現。

設計・リソース

開発ボードと設計

EdgeReady音声ソリューション

NXPによって認証された量産グレードの包括的なソフトウェアおよびハードウェア・プラットフォーム。迅速な開発とターンキー・ソリューションを実現します。

ハードウェア

EdgeReady i.MX RT106Vベース

音声の評価および開発ボード

音声のリファレンス・デザイン

ソフトウェア

Conversa音声スイート

VITモデル生成ツール

音声インテリジェント・テクノロジ・ウェイクワードおよび音声コマンド・エンジン

音声インテリジェント・テクノロジSpeech to Intent (S2I) エンジン

VoiceSpotウェイクワード・エンジン

VoiceSeekerオーディオ・フロントエンド

低消費電力音声UI

ドキュメント

エッジでの音声処理向けのソフトウェア

NXPは、人間と機械の音声処理に対応する信頼性の高い音声、オーディオ、および通信ソリューションを提供します。

ファクト・シート

2023年9月19日

Rev 1

よくある質問 (FAQ)

VITはどのように導入すればよいですか？

VITウェイクワードおよび音声コマンド・エンジンには、オンライン・ツールおよびNXPのMCUXpresso SDKからアクセスできます。VIT Speech to Intentについては、リクエストの内容を記載し、voice@nxp.comまで電子メールでお問い合わせください。

NXPは音声ソフトウェア・アプリケーション・サンプルを提供していますか？

はい。NXPのアプリケーション・ソフトウェア・パックまたはアプリケーション・コード・ハブのページをご覧ください。また、NXPの音声ソフトウェアについて紹介しているデモ・ビデオも閲覧できます。

音声UIと音声通信の違いは何ですか？

音声UIとは、音声をユーザー・インターフェースとして使用する「音声ファースト」のデバイスを指します。NXPの音声UIソフトウェア・テクノロジには、VIT、VoiceSpot、VoiceSeekerがあります。

音声通信とは、音声を使用した人対人の双方向通信、すなわち電話を指します。NXPの音声通信ソフトウェア・テクノロジには、Conversaがあります。

VoiceSpotとVITの違いは何ですか？それぞれどのようなときに使用するものですか？

VoiceSpotは、非常に正確で高度に最適化されたウェイクワードおよび音響イベント検出エンジンです。これはディープ・ラーニングのニューラル・ネットワーク・テクノロジをベースとしており、トレーニングには大規模なデータセットが必要です。VoiceSpotは、最小の誤警報で最高の応答率を必要とするお客様や、音声/音響のトリガの待機中は超低消費電力状態で動作させる必要があるお客様に適しています。

VITソフトウェア・スイートは、音素ベースの自動音声認識テクノロジに基づいて構築されています。このテクノロジは、発話の音素（音声の基本構成要素）を単語にマッピングした後、ウェイクワードおよびコマンドとして認識し、インテントやアクションに変換することができます。VITは音素をベースにしているため、キーボードとNXPのオンライン・モデル作成ツールを使用して、ウェイクワードやコマンド・モデルをすばやく作成できます。VITウェイクワードおよび音声コマンド・エンジンは、カスタム・ウェイクワードや音声コマンドを独自に作成したいお客様や、音声をユーザー・インターフェースとしてすぐに試してみたいお客様に適しています。VIT Speech to Intentは、クラウド接続やクラウドASR書き起こしサービスを使用せずに、エッジ・プロセッサなどで自然言語理解を作成してみたいお客様に適しています。

VoiceSeekerとはどのようなもので、どのように使用すればよいですか？

VoiceSeekerは、複数のマイクでのビームフォーミングを使用した、音声ユーザー・インターフェース向けオーディオ・フロントエンド信号処理ソリューションです。VoiceSeekerは信号とノイズを識別し、遠距離で残響がある状況において特に効果を発揮します。VoiceSeekerには、無料で使用できる標準オプションと、プレミアム・オプションがあります。AECなしのVoiceSeekerは、NXPのMCUXpresso SDKを介して無料で利用でき、VoiceSpotまたはVITと簡単に統合できます。VoiceSeekerのプレミアム・オプションには、音響エコー・キャンセラ (AEC) が含まれており、NXPから限定配布を通じて入手できます。VoiceSeekerは、スマート・スピーカやホーム・コントローラなどの遠距離音声制御アプリケーションでよく使用されていますが、干渉しているノイズをキャンセルする必要がある場合には、中距離や近距離でも使用可能です。

NXP Smarter Worldブログ