← Все посты

Психология придумала evals раньше всех

Есть вопрос, который сегодня не даёт покоя всему AI research сообществу: как понять, что модель действительно умеет то, что, кажется, умеет?

Как отличить настоящее понимание от очень убедительной имитации? Как измерить интеллект - не как философскую категорию, а как воспроизводимый, надёжный результат?

Этот вопрос не новый. Психология задала его на 150 лет раньше.

Как психология стала наукой

В XIX веке психология была частью философии. Рассуждения о природе ума, сознания, восприятия - но без измерений, без эксперимента, без воспроизводимости.

Всё изменилось, когда появился вопрос: а можно ли это измерить?

Густав Фехнер начал измерять ощущения. Вильгельм Вундт в 1879 году открыл первую психологическую лабораторию и стал проводить контролируемые эксперименты над психическими процессами. Психология перестала быть философией и стала наукой - в тот момент, когда научилась оценивать.

Именно тогда появились первые evals: тесты памяти, внимания, восприятия, интеллекта. И сразу встала та же проблема, что стоит сегодня перед AI research: как убедиться, что ты измеряешь именно то, что думаешь?

Три вопроса, которые не изменились

В психологии есть понятия надёжности и валидности. Надёжность - даёт ли тест стабильный результат при повторении? Валидность - измеряет ли он то, что заявлено?

Это звучит просто. На практике - невероятно сложно.

Как построить тест интеллекта, который не измеряет при этом знание культурных кодов конкретной страны? Как убедиться, что испытуемый решает задачу так, как ты думаешь, а не как-то иначе?

Те же три вопроса - в центре современных AI evals.

Модель набирает 90% на бенчмарке - это значит, что она умеет рассуждать? Или что она видела похожие примеры в обучающих данных? Как понять, что агент решает задачу, а не находит обходной путь, который выглядит как решение?

Методология та же. Объект другой. Сложность - та же самая.

Почему это важно именно сейчас

Пока AI-системы были инструментами с фиксированным поведением, оценка была проще. Агенты - другое дело. Они принимают решения в незнакомых ситуациях, взаимодействуют с окружением, адаптируются.

Оценивать их поведение - это уже не про accuracy на тестовой выборке. Это про то, как проектировать среду, задачи и метрики так, чтобы результат что-то значил.

Именно этим занимались психологи, когда строили первые экспериментальные протоколы. И именно это меня сейчас захватывает в AI research.

Два разных поля. Один вопрос.

Когда я работаю с оценкой AI-систем, я не чувствую, что занимаюсь чем-то далёким от психологии. Я чувствую, что два образования наконец занялись одним и тем же вопросом.

Просто с разных сторон.