Long context is not memory - Anna Reshetnyak

There is a very tempting idea in AI right now: if a system can see more of the past, then the memory problem is almost solved.

A bigger context window. More history. More tokens. Then everything is fine.

But long context is not memory.

Memory is not just access to previous information. Memory is the ability to preserve what matters, discard what does not, retrieve the right thing at the right moment, and use past experience in a way that actually changes what happens next.

That distinction matters more and more as we move from chat-style systems to agents.

An agent can be given a long log of everything that happened before. But that still does not mean it understood what mattered in it. It does not mean it separated signal from noise. It does not mean that three steps later it will bring back the exact detail the new task actually needs.

And it definitely does not mean it learned anything.

Psychology has been living inside this problem for a long time.

Human memory is not a storage room. It is not a perfect archive where the right file quietly sits until we come back for it. Memory is active. Memory is selective. Memory is reconstructive. We encode, distort, forget, confuse, overwrite, retrieve, and assemble things again.

That is why memory research in psychology has always been about more than retaining information. It has been about interference, salience, false confidence, and the difference between what is there in principle and what can actually be used at the right moment.

With AI agents, something very similar is happening today.

What many systems call memory is still often closer to extended context: a larger pile of previous interactions, maybe lightly summarized, maybe stored in a vector database, maybe retrieved when needed. Useful, yes. But still not the same thing as memory in the stronger sense.

Because the hard part is not just keeping the past around.

The hard part is deciding what survives.
The hard part is deciding what gets retrieved.
The hard part is deciding what changes the next action.

That is why this is not only an engineering question. It is an evaluation question.

If we only look at the final answer, we miss too much. An agent may look competent while relying on brittle workarounds, irrelevant memories, or accidental pattern matching. It may work once and then fall apart as soon as the environment becomes longer, noisier, or more interconnected across steps.

To evaluate agents well, we need to ask not only whether the result was correct, but what the system remembered, what it ignored, what it carried forward, and whether that internal selection was meaningful.

That is where the problem becomes interesting to me.

Because AI research once again arrives at a question psychology has lived with for a very long time: how do we know that a system is not just exposed to the past, but is actually using it in a meaningful way?

Long context may make systems more capable.

But memory is something more demanding.

I suspect that for agents, this difference will matter more and more.

Сейчас в AI есть очень соблазнительная идея: если система видит больше прошлого, значит проблема памяти уже почти решена.

Больше context window. Больше истории. Больше токенов. Значит, всё в порядке.

Но длинный контекст - это не память.

Память - это не просто доступ к предыдущей информации. Память - это способность сохранить важное, отбросить лишнее, достать нужное в нужный момент и использовать прошлый опыт так, чтобы он действительно менял то, что произойдёт дальше.

Эта разница становится всё важнее по мере того, как мы движемся от чат-систем к агентам.

Агенту можно дать длинный лог всего, что происходило раньше. Но это ещё не значит, что он понял, что в этом было важным. Не значит, что он отделил сигнал от шума. Не значит, что через три шага он вернёт именно ту деталь, которая действительно нужна новой задаче.

И уж точно это не значит, что он чему-то научился.

Психология давно живёт внутри этой проблемы.

Человеческая память - это не склад. Не идеальный архив, где нужный файл спокойно лежит до тех пор, пока мы за ним не придём. Память активна. Память избирательна. Память реконструируется. Мы кодируем, искажаем, забываем, путаем, затираем, извлекаем и заново собираем.

Именно поэтому исследования памяти в психологии всегда были не только про сохранение информации. Они были про интерференцию, значимость, ложную уверенность и про разницу между тем, что в принципе где-то есть, и тем, что реально удаётся использовать в нужный момент.

С AI-агентами сегодня происходит очень похожая история.

То, что многие системы называют memory, пока часто ближе к расширенному контексту: большая стопка предыдущих взаимодействий, иногда сжато пересказанная, иногда сохранённая в векторной базе, иногда доставаемая по запросу. Полезно? Да. Но всё ещё не то же самое, что память в более сильном смысле.

Потому что сложность не только в том, чтобы хранить прошлое рядом.

Сложность в том, чтобы решить, что переживёт следующий шаг.
Сложность в том, чтобы решить, что будет извлечено.
Сложность в том, чтобы решить, что действительно повлияет на следующее действие.

Поэтому это не только инженерный вопрос. Это вопрос оценки.

Если смотреть только на финальный ответ, мы упускаем слишком многое. Агент может выглядеть компетентным, опираясь на хрупкие обходные пути, нерелевантные воспоминания или случайное совпадение паттернов. Он может сработать один раз - и рассыпаться, как только среда станет длиннее, шумнее или сильнее связанной между шагами.

Чтобы хорошо оценивать агентов, нужно спрашивать не только о том, правильный ли получился результат, но и о том, что система запомнила, что проигнорировала, что перенесла дальше и был ли этот внутренний отбор вообще содержательным.

Именно здесь эта тема становится для меня особенно интересной.

Потому что AI research снова приходит к вопросу, с которым психология живёт очень давно: как понять, что система не просто имеет доступ к прошлому, а действительно использует его содержательно?

Длинный контекст может делать системы сильнее.

Но память - это нечто более требовательное.

Я предполагаю, что для агентов эта разница будет становиться всё важнее.