HOME > BLOG > ローカルLLMで、AIエージェントのトークン節約に挑む。

BLOG

ローカルLLMで、AIエージェントのトークン節約に挑む。

2026年6月18日

AIエージェントの活用で開発が加速する一方、増大するトークンコストは大きな悩みです。そこで、ローカルLLMを使って、長い会話や作業経緯、今後の指示を整理・要約するツール「Agent Handoff Local」を作りました。要約結果を確認することで、人間側の思考整理にも役立つツールです。

AIエージェントの切実なコスト問題。

自分のPC上で、CodexやClaude CodeなどのAIエージェントが、サクサクと仕事を進めてくれるのは、非常に気持ちの良いものです。プログラム開発は驚くほど捗ります。
しかし、調子に乗って長い会話を続けたり、プログラムの規模が大きくなると、たちまちトークンの消費が増大します。気がつけば、上限やコストが気になってくる。AIエージェントを日常的に使い始めると、多くの人がぶつかる問題だと思います。
この問題に対しては、すでにオープンソースの文脈圧縮ツールがいくつか登場しています。私もその一つである Headroom を試そうとしました。Headroom は、AIエージェントがLLMへ渡す入力を事前に整理し、トークン数を減らすことを目的としたツールです。
ただ、私の環境では、Windows上でデスクトップ版Codexを使っていることもあり、設定まわりの相性が難しく、安定して使うところまでは至りませんでした。

重要なのは、意味の要約。

そこで考えたのが、ローカルLLMに、AIエージェントへ渡す前の「下ごしらえ」をしてもらうという方法です。
Headroomのようなツールが行っていることは、文章をZIPのように数学的に圧縮することではありません。AIエージェントが読む前に、ツール出力、ログ、ファイル内容、検索結果、会話履歴などを整理し、LLMに渡す文脈を短くする処理です。つまり、実質的には「意味の要約」に近いものだと考えられます。
ローカルLLMでも、長い会話やログの文脈を整理し、必要な情報だけを要約することは可能です。ただし、完全に自動化してしまうと、本当に伝えたい部分や、人間側の判断、変更してはいけない範囲が抜け落ちる可能性があります。これは、自動で文脈を削減する仕組みに共通するリスクです。
そこで、Agent Handoff Local では、ローカルLLMに要約を任せつつ、その結果を人間が確認できる形にしました。スピードは完全自動の仕組みに劣りますが、目的は単なる高速化ではなく、AIエージェントに渡す文脈を整理し、トークン消費を抑えることにあります。
特にプログラム開発では、長い経緯をそのまま渡すよりも、目的、現在の問題、関係ファイル、禁止事項、次に依頼したいことを整理して渡した方が、AIエージェント側の負担を減らせます。その結果として、トークン削減や作業の安定化につながるのではないかと考えました。

Agent Handoff Localの機能

Agent Handoff Localは、手軽に使えるツールとして、Webブラウザをインターフェイスとしています。次の3つの画面から構成されています。

●要約機能

ターゲットとなるAIエージェント、ローカルLLMのモデルを選択し、要約作業を実行する画面です。入力部分には、エージェントの長い回答、エラー、ログ、自分の判断、次の指示などを貼ります。人間の判断を書き込む「判断メモ」を記入できます。これらをローカルLLMが要約したものが、「エージェント用メモ」として表示されます。
簡易的な機密チェック機能、機密マスク機能を搭載しています。

●ルールファイル管理

各AIエージェントの形式で、ルールファイルを読み込み・作成・更新します。保存時は既存ファイルを自動バックアップします。
作成・読み込んだルールファイルを確認し、追加情報を追加します。ローカルLLMが更新案をまとめます。

●履歴

過去の「伝達メモ」を参照できます。削減率は、入力に対する「伝達メモ」の削減率です。トークンの削減率を表すものではありません。

●目的に特化した要約機能。

Agent Handoff Localの特長は、『Mode』と『Template』でローカルLLMに明確に指示を与えていることです。
Modeでは、ローカルLLMに伝達の『型』を指定します。

1. 伝達メモ
# Codex伝達メモ
## 目的
## 現在の問題
## 関係ファイル
## 既に試したこと
## 分かったこと
## 変更してよい範囲
## 変更してはいけない範囲
## AIエージェントへの次の依頼

他に、バグ調査用の型、超短縮した型があります。

Templateは、目的とする技術分野に応じた指示をローカルLLMに行います。

たとえば、Djangoプログラミングでは、

追加方針:
– Djangoプロジェクト向けに整理する
– views.py、models.py、forms.py、urls.py、templates、migrations の関係を意識する
– 明示指示がない限り models.py と migrations は変更禁止候補として扱う
– エラーがある場合は、例外名、URL、Request Method、該当view名を残す
– 最小修正を優先する

といった指示がローカルLLMの要約に反映されます。

『Mode』と『Template』は、現在、内部で処理しています。これらは使用者の用途に応じるものなので、外部から簡単に変更できるようにしたいと考えています。

AIエージェントと人間の思考を整理する。

AIエージェントのトークン消費を抑えるということは、単に文字数を減らすことではありません。重要なのは、AIエージェントに渡す文脈から、重複した説明、古い試行錯誤、不要になった経緯を取り除き、次の作業に必要な情報だけを整理することです。
Agent Handoff Localを使うと、長くなった会話やログが、目的、現在の問題、関係ファイル、分かったこと、変更してはいけない範囲、次に依頼したいことに分けて整理されます。これにより、AIエージェントに渡す情報量を減らすだけでなく、人間側も「いま何を頼みたいのか」を確認しやすくなります。
特に重要だと感じたのは、人間の判断を明示できることです。AIエージェントの回答や作業ログだけを要約するのではなく、「A案で進める」「このファイルは触らない」「次はここだけ確認してほしい」といった人間側の判断を加えてから要約できます。
トークン削減は大きな目的ですが、開発において本当に重要なのは「いかに最短で目的を達するか」だと感じています。このツールは、AIエージェントとの作業を整理し、確認することで、人間の判断も効率化するものと言えます。
まだ実験段階のローカルツールですが、今後、成果を確信できたり、大きな改善点が見つかったりしたら、またご報告します。

このような取り組みが、皆さんの発想のヒントになれば幸いです。
本ツールに関心がありましたら、お気軽にお問い合わせください。

#AI #AIエージェント #codex #ローカルLLM

HOME > BLOG > ローカルLLMで、AIエージェントのトークン節約に挑む。

ローカルLLMで、AIエージェントのトークン節約に挑む。

AIエージェントの切実なコスト問題。

重要なのは、意味の要約。

Agent Handoff Localの機能

●目的に特化した要約機能。

AIエージェントと人間の思考を整理する。

協力スタッフ募集

広告代理店・制作会社様へ

メールフォームで問合わせ

お支払いについて

プライバシーポリシー

SITEMAP

TEL.03-5808-9480

FAX.03-6802-8590