гайд от Матвея Шульги

Как не упираться в лимиты ИИ-агентов

16 рабочих способов экономить токены в Claude Code, Codex, Cursor и любом другом агенте. Плюс готовый скилл для суммаризации диалога и 10 GitHub-репозиториев, которые срезают расход до 90 %.

16
способов
10
репозиториев
1
скилл
Лайфхаки

Способы экономии токенов

Каждый пункт — что это, почему работает и как сделать прямо сейчас.

01
история чата

Не плоди мусорные сообщения

«Ты дурак, переделай», «нет, я имел в виду другое» — каждое такое сообщение навсегда в истории, и нейронка перечитывает его на каждом следующем шаге.

Что делать: вместо догоняющих правок — откати чат до проблемного сообщения или отредактируй исходный запрос (см. следующие два пункта).
02
история чата

Откат сообщений и форк чата

Вместо того чтобы поверх кривого ответа писать правки — откатись. Доступно везде.

Как: стрелка назад на сообщении → Fork conversation from here (откат диалога) или Fork & rewind code (откат вместе с файлами).
03
история чата

Редактируй своё сообщение

Если ты ошибся в формулировке — не пиши новое уточнение, отредактируй прошлое. Старый ответ исчезает, история остаётся чистой.

Как: наведи на своё сообщение → значок карандаша → правки → Save. Нейронка ответит заново на исправленный запрос.
04
история чата

Пиши несколько вопросов в одном сообщении

Если задачи небольшие и связанные — задавай их пачкой в одном сообщении. Нейронка прогонит контекст один раз, а не три.

Что делать: группируй мелочёвку. Большие задачи — всё ещё по одной на чат.
05
claude code

Команда /btw для побочных вопросов

В Claude Code можно задать сторонний вопрос, не прерывая и не загрязняя основную задачу. Идеально, когда нужно быстро что-то уточнить, а ломать контекст рабочей сессии не хочется.

Как: введи /btw, задай вопрос — модель ответит. После Esc и вопрос, и ответ полностью пропадают из истории чата, токены не «прилипают».
06
промтинг

Проси отвечать коротко

Выходные токены стоят примерно в 5 раз дороже входных, потому что модель пишет ответ по слову, прогоняя контекст перед каждым.

Как: один раз пропиши «отвечай коротко и по делу» в глобальном CLAUDE.md / AGENTS.md или в Personal Preferences.
07
структура

Один таск — один чат

Дизайн, вёрстка, бэкенд, интеграции в одном чате — путь к деградации. Каждая новая тема загрязняет контекст для остальных.

Что делать: закончил крупный таск — закрыл чат. Если контекст важен дальше — выноси в .md и ссылайся.
08
структура

Не превышай ~120 000 токенов

Контекстное окно у Claude — миллион, но реально модель работает чисто примерно до 120k. Дальше начинаются ошибки и забывания.

Как: следи за индикатором, используй /compact, делай откаты или переходи в новый чат.

Скилл-суммаризатор для перехода в новый чат

Готовый Claude Code skill, который превращает текущий разговор в один копируемый markdown-блок и вставляется первым сообщением в новый чат — новая сессия мгновенно получает полный рабочий контекст без переспросов. Универсален: код, ресёрч, креатив, решения.

Скачать summarize-master.md Открыть в браузере
09
делегирование

Используй субагентов

Крупная задача (например, SEO-аудит) у субагента живёт в его собственном контекстном окне. В основной чат возвращается только финальное резюме — десятки тысяч строк остаются «там».

Что делать: делегируй большие, изолируемые задачи субагентам. Доступно в Claude и Codex.
10
делегирование

Создавай скилы

Скилл — это .md с инструкцией под повторяющуюся задачу. Нейронка не думает заново — сразу применяет готовое решение. Подгружается только когда нужно.

Что делать: один раз решил сложную задачу хорошо — заверни в скилл, в следующий раз сэкономишь часы и токены.
11
файлы

Markdown вместо PDF и DOCX

PDF тащит метаданные шрифтов, координаты символов, разметку. На один и тот же текст PDF съест ~15k токенов, а Markdown — ~8k. Плюс .md — родной формат для нейросетей.

Что делать: любые ТЗ, инструкции, дизайн-системы и доки конвертируй в Markdown, прежде чем передавать модели.
12
файлы

CLAUDE.md / AGENTS.md до 200 строк

Эти файлы подгружаются в начале каждой сессии. Если в них тысяча строк — модель уже стартует с забитым контекстом и тупит с первого сообщения.

Как: держи только то, что важно для каждой задачи. Дизайн-систему, ТЗ и крупные блоки — в отдельные .md, и ссылайся на них одной строчкой.
13
отключение

Отключай ненужное

Каждая дополнительная функция жрёт токены просто фактом существования. MCP-серверы (особенно Playwright), Extended Thinking, коннекторы, работа в браузере — всё это нагружает контекст, даже если в текущей задаче не используется.

Как: /mcp → выбрать сервер → Disable. Расширенное мышление выключай для рутины. В промте можно писать прямо: «не используй Playwright MCP в этой задаче». Включай адресно — только когда реально нужно.
14
модели

Лёгкие задачи — лёгкая модель

Поменять цвет кнопки прекрасно делает Haiku. Гонять для этого Opus — переплата токенами и временем.

Как: /model в Claude Code. Haiku — рутина, Sonnet — типовая работа, Opus — сложная архитектура и критичные правки.
15
промтинг

Plan Mode перед реализацией

В режиме плана модель сначала составляет план задачи, ты его согласуешь — и только потом она пишет код. Меньше переделок → меньше сожжённых токенов.

Как: Shift+Tab в Claude Code и Codex — переключение режима в правом нижнем углу. Для крупных задач — плагин Superpowers: брейншторм → план → реализация → тесты.
16
claude code

Растягиваем 5-часовое окно

Окно лимитов в Claude Code стартует с твоего первого сообщения за день. Если первое сообщение в 6 утра — окно закроется в 11, и сразу откроется новое к моменту, когда ты реально садишься работать.

Как: создай Claude Routine — короткое сообщение, отправляемое на ранний час. Сжёг лимит — оно уже почти восстановилось.

10 GitHub-репозиториев для экономии токенов

Подборка инструментов от @DeRonin_. Работают с Claude Code, Codex, Cursor и другими ИИ-агентами — срезают расход токенов на 60–90 %. Каждая ссылка ведёт прямо на репозиторий.

01rtk-ai/rtk

RTK (Rust Token Killer) — CLI-прокси, фильтрующий вывод терминала до того, как он попадёт в контекст. До 60–90 % экономии на типовых dev-командах. Один бинарь, без зависимостей.

02musistudio/claude-code-router

Прокси, который маршрутизирует задачи на альтернативные модели (DeepSeek, Gemini, Ollama), снижая расход на API Anthropic. Подходит для тех, кто гоняет много простых задач.

03eyaltoledano/claude-task-master

Разбивает сложные проекты на изолированные атомарные задачи, каждая со своим минимальным контекстом. Снижает общий «токен-балласт».

04davila7/claude-code-templates

Готовые CLAUDE.md и переиспользуемые скилы под популярные фреймворки. Чтобы стартовый контекст был сразу плотным, без воды.

05SuperClaude-Org/SuperClaude_Framework

Фреймворк со сжатыми командами, когнитивными персонами и локальным кэшированием файлов — чтобы Claude не перечитывал одно и то же по сто раз.

06ryoppippi/ccusage

CLI-аналитика расхода токенов из локальных session-файлов: разбивка по моделям, типам запросов и проектам. Чтобы понимать, куда реально утекает контекст.

07Maciek-roboblog/Claude-Code-Usage-Monitor

Мониторинг лимитов в реальном времени с прогресс-барами и алертами. Не даст внезапно влететь в потолок плана посреди задачи.

08JuliusBrussee/caveman

Скилл, заставляющий Claude отвечать «как первобытный человек» — короткими фразами без воды. До 65 % экономии выходных токенов на длинных ответах.

09drona23/claude-token-efficient

Один drop-in CLAUDE.md с правилами лаконичных ответов. Минимум настройки, максимум эффекта на длительной работе.

10hesreallyhim/awesome-claude-code

Куратская подборка инструментов, паттернов и практик Claude Code для оптимизации контекста и токенов. Хорошая точка входа в экосистему.