生成AIの活用が「チャット」から「自律的なエージェント(Agentic AI)」へと移行する中で、開発者が直面する最大の壁はトークン消費量と精度の両立です。

AWSが展開するオープンソースのフレームワーク「Strands Agents」は、リリースからわずか1年足らずで1,400万ダウンロードを記録し、この課題に対する決定的な解を提示しています。

単にモデルの性能に頼るのではなく、エージェントへのツールの持たせ方を最適化することで、トークン消費を最大96%削減しつつ、推論の正確性を飛躍的に高める手法が注目を集めています。

本記事では、AWSのデベロッパーアドバンス、モーガン・ウィリス氏が示したデモンストレーションに基づき、次世代のエージェント設計の核心に迫ります。

エージェント設計における「トークンの壁」を打破する

従来のAIエージェント開発では、既存のAPIエンドポイントをそのまま「ツール」としてエージェントに公開する手法が一般的でした。

しかし、この設計思想には大きな落とし穴があります。

複雑なタスクを実行するために、エージェントが何度もAPIを呼び出し、その都度コンテキスト(履歴や説明文)を読み込む必要があるため、トークン消費が爆発的に増加してしまうのです。

AWSの検証では、顧客の最新の請求書を検索するというシンプルなタスクにおいて、APIエンドポイントを直接マッピングした場合、5回のAPIコールが必要となり、合計で約52,000トークンを消費しました。

これはコスト面だけでなく、処理速度(レイテンシ)や精度の低下にも直結します。

エージェントはステップが増えるほど、途中のプロセスで「迷子」になる確率が高まるからです。

インテントベース(意図ベース)のツール設計への転換

この問題を解決するのが、「インテントベース(意図ベース)のツール」という考え方です。

これは、データ操作単位(CRUD)ではなく、ユーザーの「最終的な目的(アウトカム)」に合わせてツールを再設計する手法を指します。

設計手法アプローチ特徴
データ駆動型(従来)APIエンドポイントを1対1でツール化柔軟性は高いが、エージェントが手順を考える負荷が大きい |
インテントベース(推奨)複数の操作を一つの「目的」に集約エージェントは1回の呼び出しで完了。トークンを大幅に節約 |

AWSのデモでは、このインテントベースのツールを採用した結果、同じクエリに対するトークン消費量が52,000からわずか2,000へと激減しました。

これは、エージェントに「何をするか」を推論させる負担を減らし、バックエンド側でビジネスロジックをカプセル化することで、LLM(大規模言語モデル)のコンテキストウィンドウを効率的に活用した結果です。

ツール・セマンティック検索とMCPの活用

エージェントが持つツールの数が増えれば増えるほど、LLMは「どのツールを使うべきか」という判断に迷い、誤った選択(ハルシネーション)を起こしやすくなります。

この課題に対し、Strands Agentsは「セマンティック検索(意味検索)」を用いた動的なツールの読み込みを提案しています。

AWS Agent Core Gatewayによる動的な最適化

Strands Agentsの最新の実装では、AWS Agent Core Gatewayを介して、リモートのMCP(Model Context Protocol)サーバーと連携します。

エージェントは最初からすべてのツールセットを保持するのではなく、ユーザーの入力に応じて、その時々で必要と思われるツールだけをカタログから検索して取得します。

例えば、16個のツールがあるシステムにおいて、最初からすべてをコンテキストに詰め込むのではなく、検索によって絞り込まれた数個のツールだけをエージェントに渡します。

この「必要な分だけを提示する」アプローチにより、トークン消費量はさらに半分以下にまで抑制されます。

精度向上のための「狭いスコープ」の原則

モーガン・ウィリス氏は、「エージェントは汎用的なものよりも、特定のタスクに特化して狭く定義されたものの方がパフォーマンスが良い」と述べています。

ツールを絞り込むことは、単なる節約術ではなく、エージェントの「思考のノイズ」を排除し、推論の正確性を担保するための重要な設計戦略です。

Strands Agentsがもたらす開発パラダイムの変革

Strands Agents(Python SDKはこちら)がこれほどまでに支持されている理由は、AWSが提唱する「エージェント中心の設計思想」を具体化している点にあります。

これまでのAI開発は「いかに高性能なモデルを使うか」に焦点が当てられてきましたが、Strandsは「いかに賢くツールをエージェントに見せるか」というオーケストレーションの重要性を浮き彫りにしました。

開発者が意識すべき3つのポイント

  1. ツールの抽象化:APIの構造をそのまま見せるのではなく、ビジネス上の「目的」に沿ったインターフェースを用意する。
  2. 動的なフィルタリング:すべての機能を一度に提供せず、セマンティック検索を活用してコンテキストを最小化する。
  3. マイクロエージェント化:一つの巨大なエージェントを作るのではなく、小さく鋭いエージェントを組み合わせる。

このような設計を採用することで、開発者はAPI呼び出しの連鎖による不安定さを排除し、本番環境に耐えうる堅牢なAIシステムを構築できるようになります。

特にエンタープライズ領域においては、コスト効率と信頼性は導入の絶対条件であり、Strands Agentsの手法は極めて現実的なソリューションと言えるでしょう。

まとめ

AWSがStrands Agentsを通じて示したのは、AIエージェントの「ダイエット」がいかに劇的な効果をもたらすかという事実です。

APIをインテントベースで統合し、セマンティック検索によってツールの提示を最小限に抑えることで、96%ものトークン削減と精度の向上を同時に達成できる可能性が示されました。

技術の進化とともに、エージェントはより多くのツールを扱うようになります。

しかし、無秩序に機能を追加するのではなく、「エージェントに何を見せないか」という引き算の設計こそが、次世代のAIエンジニアリングにおける最重要スキルとなるはずです。

Strands Agentsの普及により、この効率的で高精度なエージェント構築手法は、今後のスタンダードとなっていくでしょう。