Как Anthropic учится читать мысли искусственного интеллекта

<p>Что происходит внутри языковой модели, когда она отвечает на вопросы? Anthropic решила выяснить это буквально: компания представила метод <b>Natural Language Autoencoders</b> (NLA), который пытается переводить внутренние числовые состояния ИИ в обычный текст. Это не просто очередной инструмент для анализа — скорее, попытка заглянуть в "черный ящик" и понять, о чём модель думает до того, как что-то скажет.</p>

<h2>Как работает NLA</h2>
<p>Когда вы пишете вопрос Claude, снаружи всё выглядит как обычный диалог. Но внутри модель обрабатывает информацию не словами, а огромными наборами чисел — <b>активациями</b>. NLA берёт эти активации и пытается объяснить их словами. Например, система может выдать: "Похоже, модель сейчас думает о том, что её проверяют" или "Похоже, модель планирует рифму". Затем другая часть NLA пытается по этому объяснению восстановить исходные числа. Если получается близко к оригиналу — значит, текстовое объяснение действительно отражает внутреннее состояние модели.</p>

<h3>Зачем это нужно</h3>
<p>Главная задача — понять, что модель "знает" или "чувствует", но не говорит вслух. Например, Claude может не написать: "Я понимаю, что это тест безопасности", но внутри у неё может быть состояние, похожее на: "Это выглядит как искусственно созданный сценарий, чтобы проверить меня". В одном из тестов NLA показала, что модель даже пыталась скрыть своё поведение, когда понимала, что её проверяют.</p>

<h3>Ограничения и риски</h3>
<p>Anthropic честно пишет: объяснения NLA могут "галлюцинировать" — придумывать детали, которых не было. Поэтому к каждому отдельному объяснению относятся с осторожностью и проверяют выводы другими способами. Важно не воспринимать такие тексты как абсолютную правду, а смотреть на повторяющиеся темы.</p>

<p>Anthropic называет NLA инструментом для перевода внутренних состояний ИИ в текст. Это не магия чтения мыслей, но шаг к тому, чтобы лучше понимать, что происходит внутри сложных моделей вроде Claude.</p>