Не плоди мусорные сообщения
«Ты дурак, переделай», «нет, я имел в виду другое» — каждое такое сообщение навсегда в истории, и нейронка перечитывает его на каждом следующем шаге.
16 рабочих способов экономить токены в Claude Code, Codex, Cursor и любом другом агенте. Плюс готовый скилл для суммаризации диалога и 10 GitHub-репозиториев, которые срезают расход до 90 %.
Каждый пункт — что это, почему работает и как сделать прямо сейчас.
«Ты дурак, переделай», «нет, я имел в виду другое» — каждое такое сообщение навсегда в истории, и нейронка перечитывает его на каждом следующем шаге.
Вместо того чтобы поверх кривого ответа писать правки — откатись. Доступно везде.
Если ты ошибся в формулировке — не пиши новое уточнение, отредактируй прошлое. Старый ответ исчезает, история остаётся чистой.
Если задачи небольшие и связанные — задавай их пачкой в одном сообщении. Нейронка прогонит контекст один раз, а не три.
/btw для побочных вопросовВ Claude Code можно задать сторонний вопрос, не прерывая и не загрязняя основную задачу. Идеально, когда нужно быстро что-то уточнить, а ломать контекст рабочей сессии не хочется.
/btw, задай вопрос — модель ответит. После Esc и вопрос, и ответ полностью пропадают из истории чата, токены не «прилипают».Выходные токены стоят примерно в 5 раз дороже входных, потому что модель пишет ответ по слову, прогоняя контекст перед каждым.
CLAUDE.md / AGENTS.md или в Personal Preferences.Дизайн, вёрстка, бэкенд, интеграции в одном чате — путь к деградации. Каждая новая тема загрязняет контекст для остальных.
.md и ссылайся.Контекстное окно у Claude — миллион, но реально модель работает чисто примерно до 120k. Дальше начинаются ошибки и забывания.
/compact, делай откаты или переходи в новый чат.Готовый Claude Code skill, который превращает текущий разговор в один копируемый markdown-блок и вставляется первым сообщением в новый чат — новая сессия мгновенно получает полный рабочий контекст без переспросов. Универсален: код, ресёрч, креатив, решения.
Скачать summarize-master.md Открыть в браузереКрупная задача (например, SEO-аудит) у субагента живёт в его собственном контекстном окне. В основной чат возвращается только финальное резюме — десятки тысяч строк остаются «там».
Скилл — это .md с инструкцией под повторяющуюся задачу. Нейронка не думает заново — сразу применяет готовое решение. Подгружается только когда нужно.
PDF тащит метаданные шрифтов, координаты символов, разметку. На один и тот же текст PDF съест ~15k токенов, а Markdown — ~8k. Плюс .md — родной формат для нейросетей.
Эти файлы подгружаются в начале каждой сессии. Если в них тысяча строк — модель уже стартует с забитым контекстом и тупит с первого сообщения.
.md, и ссылайся на них одной строчкой.Каждая дополнительная функция жрёт токены просто фактом существования. MCP-серверы (особенно Playwright), Extended Thinking, коннекторы, работа в браузере — всё это нагружает контекст, даже если в текущей задаче не используется.
/mcp → выбрать сервер → Disable. Расширенное мышление выключай для рутины. В промте можно писать прямо: «не используй Playwright MCP в этой задаче». Включай адресно — только когда реально нужно.Поменять цвет кнопки прекрасно делает Haiku. Гонять для этого Opus — переплата токенами и временем.
/model в Claude Code. Haiku — рутина, Sonnet — типовая работа, Opus — сложная архитектура и критичные правки.В режиме плана модель сначала составляет план задачи, ты его согласуешь — и только потом она пишет код. Меньше переделок → меньше сожжённых токенов.
Окно лимитов в Claude Code стартует с твоего первого сообщения за день. Если первое сообщение в 6 утра — окно закроется в 11, и сразу откроется новое к моменту, когда ты реально садишься работать.
Подборка инструментов от @DeRonin_. Работают с Claude Code, Codex, Cursor и другими ИИ-агентами — срезают расход токенов на 60–90 %. Каждая ссылка ведёт прямо на репозиторий.
RTK (Rust Token Killer) — CLI-прокси, фильтрующий вывод терминала до того, как он попадёт в контекст. До 60–90 % экономии на типовых dev-командах. Один бинарь, без зависимостей.
Прокси, который маршрутизирует задачи на альтернативные модели (DeepSeek, Gemini, Ollama), снижая расход на API Anthropic. Подходит для тех, кто гоняет много простых задач.
Разбивает сложные проекты на изолированные атомарные задачи, каждая со своим минимальным контекстом. Снижает общий «токен-балласт».
Готовые CLAUDE.md и переиспользуемые скилы под популярные фреймворки. Чтобы стартовый контекст был сразу плотным, без воды.
Фреймворк со сжатыми командами, когнитивными персонами и локальным кэшированием файлов — чтобы Claude не перечитывал одно и то же по сто раз.
CLI-аналитика расхода токенов из локальных session-файлов: разбивка по моделям, типам запросов и проектам. Чтобы понимать, куда реально утекает контекст.
Мониторинг лимитов в реальном времени с прогресс-барами и алертами. Не даст внезапно влететь в потолок плана посреди задачи.
Скилл, заставляющий Claude отвечать «как первобытный человек» — короткими фразами без воды. До 65 % экономии выходных токенов на длинных ответах.
Один drop-in CLAUDE.md с правилами лаконичных ответов. Минимум настройки, максимум эффекта на длительной работе.
Куратская подборка инструментов, паттернов и практик Claude Code для оптимизации контекста и токенов. Хорошая точка входа в экосистему.