メールマガジン

サイバーセキュリティや
ラックに関する情報をお届けします。

サービス・製品　|　
2024年9月12日

複数のAIモデルを連携させる「AIオーケストレーション」の実例と可能性

高畑靖丈

メルマガ登録する

メルマガ登録する

近年、AI技術は飛躍的な進化を遂げており、さまざまな分野でその活用が広がっています。

私が所属する部門では、セキュリティやWeb、データベース等の既存技術に、音声認識や対話型、画像生成といった、複数のAIモデルを組み合わせる「AIオーケストレーション」で新たなサービスを生み出す研究を行っています。

本記事では、AIオーケストレーションの組み合わせについて実例で紹介し、このアプローチの可能性について解説します。

AIオーケストレーションとは
複数AIモデル連携の実例
アプリの概略と解説
複数AIモデル連携によるメリットとデメリット
複数AIモデル連携の課題と展望
さいごに

AIオーケストレーションとは

AIオーケストレーションとは、複数のAIモデルやアルゴリズムを連携させ、統合的に機能させる技術や手法を指します。単一のAIモデルでは対応できない複雑な課題やタスクに対して、異なる専門分野のAIを組み合わせて効率的かつ効果的に解決を図ります。

例えば、音声認識AIが音声データをテキストに変換し、そのテキストを対話型AIが理解して応答を生成し、さらに画像生成AIが応答に基づいたビジュアルを作成するといった、一連のプロセスを連携させます。

AIオーケストレーションのメリットやデメリットは後半でご説明しますので、まずはどのようなものか実例をご紹介します。

複数AIモデル連携の実例

ここからは、私たちが作成したアプリを使用し、コンピュータと対話しながらゾウの画像を生成してもらう様子をご覧いただきます。果たしてどのようなゾウが生成されるのでしょうか......。

あなたは森の中で1台の古いコンピュータに出会いました。
彼にはカメラがついていませんが、近くに佇んでいる動物に興味があるようです。

あなたなら「ゾウ」の容姿をどのように伝えますか？
試しに「鼻が長いよ」と話してあげると......

彼の中の動物のイメージを出力してくれました。
確かに鼻は長いですが、チガウ、コレジャナイ。
「体が大きくて、長い牙が生えているよ」と追加してあげます。すると......

何となくゾウに近づいてきました。
これを何度か繰り返すと......

おおー、ほぼゾウ！
ちょっと可愛いけど。

他の利用者が作成した動物たちも見てみましょう。
気に入った動物には「いいね」も送れます。

アプリの概略と解説

ここで使用したアプリは、複数AIモデル連携をわかりやすく表現するために作成したものです。音声認識AIのWhisper、対話型AIのChatGPT、画像生成AIのDALL-Eを連携させています。

利用者が音声で動物の特徴を指示すると、その内容をWhisperが正確に認識し、続いてChatGPTがその指示に対する適切な応答を生成します。そして、DALL-Eがその応答に基づいた画像を生成し、視覚的な情報を補完します。完成した画像は他の利用者と共有可能で、気に入った画像には「いいね」を送ることもできます。

AIというと、テキストベースのチャットが主流のインターフェースですが、このアプリでは音声や画像を含む多面的な表現と、利用者同士が緩やかな交流を楽しめるよう設計しました。

以下に、このアプリの一部を抜き出し、どのように複数AIモデル連携を実現しているかを解説します。私たちはAPPサーバを介する方法でAIモデルの連携を行いましたが、これはAIモデルやデータベースをプライベートネットワーク内に隠す効果も兼ねて設置しています。

図に記載した1から7の各プロセスについて説明します。

1. ステレオ・モノラル変換

利用者の音声は、Webブラウザ内でモノラルに変換されます。これは、Whisperがモノラル音声のみを受け付ける仕様であることと、通信データ量を抑えるためです。

2. セッション検査

APPサーバが呼び出される際には、セッションの整合性を検査し、呼び出し元のアプリが正当なアプリであるか、正当な順序でAPPサーバが呼ばれているかを確認します。これにより、APPサーバの不正利用を防ぎ、AIモデルが無駄に呼び出されてコストが増加するのを防止します。

3. 音声認識（Whisper）

利用者の音声は、APPサーバ上でWAV形式データとして取り出され、Whisperによって日本語のテキストに変換されます。

4. 形態素解析、動物名検査（ChatGPT）

Whisperより得られたテキストに、「ゾウ」などの動物名が含まれていないかを検査します。当初はChatGPTのみでこの検査を行おうとしましたが、「長い鼻」といった表現を「ゾウ」と誤認してエラーになるケースがあったため、形態素解析ライブラリを使ってテキスト内の名詞のみを抽出してからChatGPTに渡すことで、より正確な検査を実現しました。

5. 動物特徴ワード生成

テキストから動物の特徴となるワードを生成します。例えば、「木の葉や草を食べるよ」を「草食性」などのワードに変換します。このプロセスは、DALL-Eにあえて曖昧なワードを渡し、ランダム性のある画像を生成させる目的で設けました。

なお、図には描かれていませんが、この処理もChatGPTを利用しています。また同様に図に表現されていませんが、4.と5.の処理は並列化され同時に実行されます。これは時間のかかるAIモデル呼び出しを効率化し、パフォーマンスの向上を図ったものです。

6. 画像生成（DALL-E）

生成した動物特徴ワードと、前回の呼び出しまでに生成した動物特徴ワードを連結してDALL-Eに渡します。DALL-Eは画像を生成して結果のURLを返します。この時、もし危険な画像が生成された場合はコンテンツフィルタによりエラーとなります。

7. 画像ダウンロード、画像リサイズ

生成された画像のURLはWebブラウザに渡され、画像のダウンロードと表示を行います。同時にAPPサーバでも画像のダウンロードと省データ化のためのリサイズを行った後、データベースに保存されます。

複数AIモデル連携によるメリットとデメリット

以上のように実現した連携ですが、開発作業を進め利用者の反応を得る中で、以下のメリットとデメリットが明らかになってきました。

メリット

システムとの高度な対話が可能

自然言語処理や知識推論など複数のAIモデルの技術を活用することで、単純な質問応答だけではなく、状況や目的に応じた高度な対話が可能です。

入出力が多様

音声認識、自然言語処理、画像認識などの異なる技術を組み合わせることで、音声や画像などの多様な形式での入出力が可能となり、より直感的で豊かなユーザー体験を提供できます。

柔軟性のあるシステムの構築

複数のAIモデルと連携することで、利用者や他システム間の相違を柔軟に吸収できるようになります。例えば、アプリを多言語化することもAIモデルのプロンプトやパラメータの変更のみで可能です。

デメリット

コストが高い

高精度なAIモデルを運用するためには、大量のデータと計算リソースが必要です。これに伴うインフラコストが高くなることが課題です。

連携が複雑

異なるAIモデル間の連携が求められるため、システムの設計と実装が複雑になります。また、各モデルの性能や応答速度が全体のシステムに影響を与えるため、バランスの取れた構成が必要です。

検証作業も複雑

AIモデルは完璧ではないため、プロンプトやパラメータの違いで予想外の返答を返す場合があります。このため、多くのパターンでの検証・デバッグが必要となります。

複数AIモデル連携の課題と展望

複数AIモデルの連携には多くの可能性がありますが、現時点での課題も存在します。

例えば、音声認識AIが正確に音声を認識できなければ、その後の対話型AIや画像生成AIの応答精度に影響を及ぼします。各AIモデル間の連携をスムーズに行うためには、それぞれのモデルの精度が重要です。

しかし、技術の進化でこうした課題を克服しつつあります。モデルの軽量化や効率化が進めば、少ないリソースでも高性能なAIを運用することが可能になります。さらに、クラウドベースのAIサービスの普及により、必要な計算リソースを柔軟にスケーリングできる環境が整いつつあります。

将来的には、これらの連携がより広範な分野で利用され、個々のAIモデルの能力を最大限に引き出し、より高度な社会問題解決に生かされると期待されています。

さいごに

ラックでは、これらの連携技術を通じて、多様な分野での革新的なソリューションを開発し続けることを目指しています。例えば、教育、サービス業、エンターテインメントなど、さまざまな分野での応用が進めば新たな価値が生まれ、より多くの人々の生活が豊かになるでしょう。

私たちの技術が、日常の中でより身近に役立つ未来を願っています。もし、AIに関してお困りのことがありましたら、ぜひラックへご相談ください。

関連サービス: 生成AI活用支援サービス

この記事をシェアする

メールマガジン

サイバーセキュリティや
ラックに関する情報を
お届けします。

登録する

この記事は役に立ちましたか？

はいいいえ