Психология придумала evals раньше всех
Есть вопрос, который сегодня не даёт покоя всему AI research сообществу: как понять, что модель действительно умеет то, что, кажется, умеет?
Как отличить настоящее понимание от очень убедительной имитации? Как измерить интеллект - не как философскую категорию, а как воспроизводимый, надёжный результат?
Этот вопрос не новый. Психология задала его на 150 лет раньше.
Как психология стала наукой
В XIX веке психология была частью философии. Рассуждения о природе ума, сознания, восприятия - но без измерений, без эксперимента, без воспроизводимости.
Всё изменилось, когда появился вопрос: а можно ли это измерить?
Густав Фехнер начал измерять ощущения. Вильгельм Вундт в 1879 году открыл первую психологическую лабораторию и стал проводить контролируемые эксперименты над психическими процессами. Психология перестала быть философией и стала наукой - в тот момент, когда научилась оценивать.
Именно тогда появились первые evals: тесты памяти, внимания, восприятия, интеллекта. И сразу встала та же проблема, что стоит сегодня перед AI research: как убедиться, что ты измеряешь именно то, что думаешь?
Три вопроса, которые не изменились
В психологии есть понятия надёжности и валидности. Надёжность - даёт ли тест стабильный результат при повторении? Валидность - измеряет ли он то, что заявлено?
Это звучит просто. На практике - невероятно сложно.
Как построить тест интеллекта, который не измеряет при этом знание культурных кодов конкретной страны? Как убедиться, что испытуемый решает задачу так, как ты думаешь, а не как-то иначе?
Те же три вопроса - в центре современных AI evals.
Модель набирает 90% на бенчмарке - это значит, что она умеет рассуждать? Или что она видела похожие примеры в обучающих данных? Как понять, что агент решает задачу, а не находит обходной путь, который выглядит как решение?
Методология та же. Объект другой. Сложность - та же самая.
Почему это важно именно сейчас
Пока AI-системы были инструментами с фиксированным поведением, оценка была проще. Агенты - другое дело. Они принимают решения в незнакомых ситуациях, взаимодействуют с окружением, адаптируются.
Оценивать их поведение - это уже не про accuracy на тестовой выборке. Это про то, как проектировать среду, задачи и метрики так, чтобы результат что-то значил.
Именно этим занимались психологи, когда строили первые экспериментальные протоколы. И именно это меня сейчас захватывает в AI research.
Два разных поля. Один вопрос.
Когда я работаю с оценкой AI-систем, я не чувствую, что занимаюсь чем-то далёким от психологии. Я чувствую, что два образования наконец занялись одним и тем же вопросом.
Просто с разных сторон.