Cursor обучил Composer самосуммаризации для длинных задач

Команда Cursor описала, как обучает Composer работать с задачами, требующими сотен действий. Ключевая идея — self-summarization: агент учится сам сжимать контекст в рамках reinforcement learning, а не полагаться на внешнюю суммаризацию или sliding window.
Проблема в том, что траектории агента растут быстрее, чем контекстное окно модели. Обычные методы — текстовая суммаризация или отбрасывание старых токенов — часто приводят к потере важной информации. В CursorBench видно, что лучшие результаты на сложных задачах связаны с более глубоким «размышлением» и исследованием кодовой базы.
Самосуммаризация как обученное поведение позволяет получать обучающий сигнал из траекторий, которые длиннее максимального контекста модели. Это даёт Composer возможность осваивать более сложные сценарии разработки.
Источник: Training Composer for longer horizons (Cursor Blog)