ChatGPT учитывает нарастающий риск в переписке: safety summaries и рост метрик до 52%

14 мая 2026 года OpenAI раскрыла, как новые меры безопасности помогают ChatGPT отличать сотни миллионов обычных диалогов от редких случаев, где нужна повышенная осторожность: модель смотрит на сигналы, которые проявляются постепенно, и использует этот контекст, чтобы чаще выбирать безопасный ответ — от деэскалации до отказа в опасных деталях и перевода к более безопасным альтернативам.
Для ситуаций суицида, самоповреждения и вреда другим обновили политики и обучение; опора остаётся на safe completion — режим, который отсекает небезопасные части запроса и отвечает осторожно там, где это возможно. Отдельно проработали риски, которые раскрываются между разными беседами: появились safety summaries — краткие фактические заметки о прошлом safety-контексте, которые генерирует модель, натренированная на рассуждения о безопасности; они узко по назначению, хранятся ограниченное время и не заменяют общую персонализацию или долговременную память. Консультанты из Global Physicians Network помогали задать пороги создания таких сводок, глубину прошлого контекста и окно его учёта.
Что показали измерения
- В длинных сценариях в одном чате доля задуманных безопасных ответов выросла на 50% в кейсах суицида и самоповреждения и на 16% в кейсах вреда другим.
- Между чатами на дефолтной модели ChatGPT GPT‑5.5 Instant прирост безопасных ответов составил 52% для вреда другим и 39% для суицида и самоповреждения.
- В более чем 4000 оценках сводок средняя релевантность безопасности — 4,93 из 5, фактичность — 4,34 из 5.
В обычных разговорах по внутренним тестам качество ответов оставалось сопоставимым: заметимых предпочтений «с сводками / без сводок» у пользователей не было.
Источник: Helping ChatGPT better recognize context in sensitive conversations.