2026年6月18日
自分のPC上で、CodexやClaude CodeなどのAIエージェントが、サクサクと仕事を進めてくれるのは、非常に気持ちの良いものです。プログラム開発は驚くほど捗ります。
しかし、調子に乗って長い会話を続けたり、プログラムの規模が大きくなると、たちまちトークンの消費が増大します。気がつけば、上限やコストが気になってくる。AIエージェントを日常的に使い始めると、多くの人がぶつかる問題だと思います。
この問題に対しては、すでにオープンソースの文脈圧縮ツールがいくつか登場しています。私もその一つである Headroom を試そうとしました。Headroom は、AIエージェントがLLMへ渡す入力を事前に整理し、トークン数を減らすことを目的としたツールです。
ただ、私の環境では、Windows上でデスクトップ版Codexを使っていることもあり、設定まわりの相性が難しく、安定して使うところまでは至りませんでした。
そこで考えたのが、ローカルLLMに、AIエージェントへ渡す前の「下ごしらえ」をしてもらうという方法です。
Headroomのようなツールが行っていることは、文章をZIPのように数学的に圧縮することではありません。AIエージェントが読む前に、ツール出力、ログ、ファイル内容、検索結果、会話履歴などを整理し、LLMに渡す文脈を短くする処理です。つまり、実質的には「意味の要約」に近いものだと考えられます。
ローカルLLMでも、長い会話やログの文脈を整理し、必要な情報だけを要約することは可能です。 br>
ただし、完全に自動化してしまうと、本当に伝えたい部分や、人間側の判断、変更してはいけない範囲が抜け落ちる可能性があります。これは、自動で文脈を削減する仕組みに共通するリスクです。
そこで、Agent Handoff Local では、ローカルLLMに要約を任せつつ、その結果を人間が確認できる形にしました。スピードは完全自動の仕組みに劣りますが、目的は単なる高速化ではなく、AIエージェントに渡す文脈を整理し、トークン消費を抑えることにあります。
特にプログラム開発では、長い経緯をそのまま渡すよりも、目的、現在の問題、関係ファイル、禁止事項、次に依頼したいことを整理して渡した方が、AIエージェント側の負担を減らせます。その結果として、トークン削減や作業の安定化につながるのではないかと考えました。
Agent Handoff Localは、手軽に使えるツールとして、Webブラウザをインターフェイスとしています。次の3つの画面から構成されています。
●要約機能
ターゲットとなるAIエージェント、ローカルLLMのモデルを選択し、要約作業を実行する画面です。入力部分には、エージェントの長い回答、エラー、ログ、自分の判断、次の指示などを貼ります。人間の判断を書き込む「判断メモ」を記入できます。これらをローカルLLMが要約したものが、「エージェント用メモ」として表示されます。
簡易的な機密チェック機能、機密マスク機能を搭載しています。
●ルールファイル管理
各AIエージェントの形式で、ルールファイルを読み込み・作成・更新します。 保存時は既存ファイルを自動バックアップします。
作成・読み込んだルールファイルを確認し、追加情報を追加します。ローカルLLMが更新案をまとめます。
●履歴
過去の「伝達メモ」を参照できます。削減率は、入力に対する「伝達メモ」の削減率です。トークンの削減率を表すものではありません。
Agent Handoff Localの特長は、『Mode』と『Template』でローカルLLMに明確に指示を与えていることです。
Modeでは、ローカルLLMに伝達の『型』を指定します。
他に、バグ調査用の型、超短縮した型があります。
Templateは、目的とする技術分野に応じた指示をローカルLLMに行います。
たとえば、Djangoプログラミングでは、
追加方針:
– Djangoプロジェクト向けに整理する
– views.py、models.py、forms.py、urls.py、templates、migrations の関係を意識する
– 明示指示がない限り models.py と migrations は変更禁止候補として扱う
– エラーがある場合は、例外名、URL、Request Method、該当view名を残す
– 最小修正を優先する
といった指示がローカルLLMの要約に反映されます。
『Mode』と『Template』は、現在、内部で処理しています。これらは使用者の用途に応じるものなので、外部から簡単に変更できるようにしたいと考えています。
AIエージェントのトークン消費を抑えるということは、単に文字数を減らすことではありません。重要なのは、AIエージェントに渡す文脈から、重複した説明、古い試行錯誤、不要になった経緯を取り除き、次の作業に必要な情報だけを整理することです。
Agent Handoff Localを使うと、長くなった会話やログが、目的、現在の問題、関係ファイル、分かったこと、変更してはいけない範囲、次に依頼したいことに分けて整理されます。これにより、AIエージェントに渡す情報量を減らすだけでなく、人間側も「いま何を頼みたいのか」を確認しやすくなります。
特に重要だと感じたのは、人間の判断を明示できることです。AIエージェントの回答や作業ログだけを要約するのではなく、「A案で進める」「このファイルは触らない」「次はここだけ確認してほしい」といった人間側の判断を加えてから要約できます。
トークン削減は大きな目的ですが、開発において本当に重要なのは「いかに最短で目的を達するか」だと感じています。このツールは、AIエージェントとの作業を整理し、確認することで、人間の判断も効率化するものと言えます。
まだ実験段階のローカルツールですが、今後、成果を確信できたり、大きな改善点が見つかったりしたら、またご報告します。
このような取り組みが、皆さんの発想のヒントになれば幸いです。
本ツールに関心がありましたら、お気軽にお問い合わせください。
© 2026~ GRIP