AWSの「Strands Agents」でAIトークン消費を96%削減、高精度なエージェントを構築する設計の秘訣

2026年5月4日

生成AIの活用が「チャット」から「自律的なエージェント（Agentic AI）」へと移行する中で、開発者が直面する最大の壁はトークン消費量と精度の両立です。

AWSが展開するオープンソースのフレームワーク「Strands Agents」は、リリースからわずか1年足らずで1,400万ダウンロードを記録し、この課題に対する決定的な解を提示しています。

単にモデルの性能に頼るのではなく、エージェントへのツールの持たせ方を最適化することで、トークン消費を最大96%削減しつつ、推論の正確性を飛躍的に高める手法が注目を集めています。

本記事では、AWSのデベロッパーアドバンス、モーガン・ウィリス氏が示したデモンストレーションに基づき、次世代のエージェント設計の核心に迫ります。

目次 [ close ]

エージェント設計における「トークンの壁」を打破する

従来のAIエージェント開発では、既存のAPIエンドポイントをそのまま「ツール」としてエージェントに公開する手法が一般的でした。

しかし、この設計思想には大きな落とし穴があります。

複雑なタスクを実行するために、エージェントが何度もAPIを呼び出し、その都度コンテキスト（履歴や説明文）を読み込む必要があるため、トークン消費が爆発的に増加してしまうのです。

AWSの検証では、顧客の最新の請求書を検索するというシンプルなタスクにおいて、APIエンドポイントを直接マッピングした場合、5回のAPIコールが必要となり、合計で約52,000トークンを消費しました。

これはコスト面だけでなく、処理速度（レイテンシ）や精度の低下にも直結します。

エージェントはステップが増えるほど、途中のプロセスで「迷子」になる確率が高まるからです。

この問題を解決するのが、「インテントベース（意図ベース）のツール」という考え方です。

これは、データ操作単位（CRUD）ではなく、ユーザーの「最終的な目的（アウトカム）」に合わせてツールを再設計する手法を指します。

設計手法	アプローチ	特徴
データ駆動型（従来）	APIエンドポイントを1対1でツール化	柔軟性は高いが、エージェントが手順を考える負荷が大きい \|
インテントベース（推奨）	複数の操作を一つの「目的」に集約	エージェントは1回の呼び出しで完了。トークンを大幅に節約 \|

AWSのデモでは、このインテントベースのツールを採用した結果、同じクエリに対するトークン消費量が52,000からわずか2,000へと激減しました。

これは、エージェントに「何をするか」を推論させる負担を減らし、バックエンド側でビジネスロジックをカプセル化することで、LLM（大規模言語モデル）のコンテキストウィンドウを効率的に活用した結果です。

エージェントが持つツールの数が増えれば増えるほど、LLMは「どのツールを使うべきか」という判断に迷い、誤った選択（ハルシネーション）を起こしやすくなります。

この課題に対し、Strands Agentsは「セマンティック検索（意味検索）」を用いた動的なツールの読み込みを提案しています。

Strands Agentsの最新の実装では、AWS Agent Core Gatewayを介して、リモートのMCP（Model Context Protocol）サーバーと連携します。

エージェントは最初からすべてのツールセットを保持するのではなく、ユーザーの入力に応じて、その時々で必要と思われるツールだけをカタログから検索して取得します。

例えば、16個のツールがあるシステムにおいて、最初からすべてをコンテキストに詰め込むのではなく、検索によって絞り込まれた数個のツールだけをエージェントに渡します。

この「必要な分だけを提示する」アプローチにより、トークン消費量はさらに半分以下にまで抑制されます。

モーガン・ウィリス氏は、「エージェントは汎用的なものよりも、特定のタスクに特化して狭く定義されたものの方がパフォーマンスが良い」と述べています。

ツールを絞り込むことは、単なる節約術ではなく、エージェントの「思考のノイズ」を排除し、推論の正確性を担保するための重要な設計戦略です。

Strands Agents（Python SDKはこちら）がこれほどまでに支持されている理由は、AWSが提唱する「エージェント中心の設計思想」を具体化している点にあります。

これまでのAI開発は「いかに高性能なモデルを使うか」に焦点が当てられてきましたが、Strandsは「いかに賢くツールをエージェントに見せるか」というオーケストレーションの重要性を浮き彫りにしました。

このような設計を採用することで、開発者はAPI呼び出しの連鎖による不安定さを排除し、本番環境に耐えうる堅牢なAIシステムを構築できるようになります。

特にエンタープライズ領域においては、コスト効率と信頼性は導入の絶対条件であり、Strands Agentsの手法は極めて現実的なソリューションと言えるでしょう。

AWSがStrands Agentsを通じて示したのは、AIエージェントの「ダイエット」がいかに劇的な効果をもたらすかという事実です。

APIをインテントベースで統合し、セマンティック検索によってツールの提示を最小限に抑えることで、96%ものトークン削減と精度の向上を同時に達成できる可能性が示されました。

技術の進化とともに、エージェントはより多くのツールを扱うようになります。

しかし、無秩序に機能を追加するのではなく、「エージェントに何を見せないか」という引き算の設計こそが、次世代のAIエンジニアリングにおける最重要スキルとなるはずです。

Strands Agentsの普及により、この効率的で高精度なエージェント構築手法は、今後のスタンダードとなっていくでしょう。