δ-mem: компактная память для LLM без переобучения

Исследователи предложили δ-mem — минималистичный механизм памяти, который подключается к уже обученным большим языковым моделям (LLM) и помогает им лучше справляться с долгосрочной информацией. В отличие от традиционных подходов, здесь не требуется ни переобучение, ни увеличение размера контекста.

В основе δ-mem лежит компактная матрица фиксированного размера (8×8), куда сжимается вся необходимая информация из прошлого. Обновление памяти происходит по дельта-правилу: система хранит только разницу между предыдущим и новым состоянием, что делает процесс быстрым и экономичным.

Важная особенность — δ-mem не вмешивается в основную архитектуру модели, а лишь добавляет низкоранговые поправки в вычисления внимания. Это позволяет использовать память даже с замороженными (необучаемыми) LLM, расширяя их возможности без затрат на ресурсоёмкое переобучение.

<h3>Результаты и сравнения</h3>

В тестах δ-mem показал заметное преимущество: средний балл оказался выше, чем у исходной замороженной модели, в 1,10 раза. По сравнению с лучшими аналогами без δ-mem — в 1,15 раза. На специализированных бенчмарках MemoryAgentBench и LoCoMo прирост составил 1,31 и 1,20 раза соответственно.

Для желающих попробовать — на GitHub доступна минималистичная реализация. Это может быть полезно тем, кто работает с LLM и ищет способы повысить их эффективность без сложных изменений.