Могут ли нейросети выступать на математических олимпиадах? Экспертная оценка математического мышления LLM
Автор: Утешев И.А., Аркушин М.М., Ященко И.В., Щербаков Д.Е., Шлипаков Е.В., Машалов Н.Е., Пивоварчик А.М., Степанов Е.И., Цыбиков К.Н., Грянченко В.А., Заикин Е.Ю., Исмаилов Н.А., Корепин А.И., Кузнецов В.А., Назаров Н.В., Семенихин П.А., Шпунтов Д.В.
Журнал: Труды Московского физико-технического института @trudy-mipt
Рубрика: Информатика и управление
Статья в выпуске: 1 (69) т.18, 2026 года.
Бесплатный доступ
В исследовании оцениваются «математические способности» 11 современных больших языковых моделей (ChatGPT, Claude, DeepSeek, YandexGPT, GigaChat и др.) при решении олимпиадных задач двух уровней сложности - регионального этапа Всероссийской олимпиады школьников по математике (9 11 классы) и «Математического праздника» (6-7 классы). Решения моделей оценивались экспертами по установленным критериям проверки олимпиадных работ. Выявлены существенные ограничения LLM в доказательном математическом рассуждении. Обосновано выделение различных типов математического мышления, а также продемонстрировано отсутствие у современных моделей механизмов планирования доказательства, что представляет интерес для понимания специфики математического творчества и оценки перспектив интеграции искусственного интеллекта в сферу науки и образования.
Большие языковые модели, математические олимпиады, искусственный интеллект в образовании
Короткий адрес: https://sciup.org/142247879
IDR: 142247879 | УДК: 004.8:372.851
Can LLMs solve real math Olympiads? A human-evaluated benchmark on mathematical reasoning in education
We assess the «mathematical capabilities» of 11 contemporary large language models (ChatGPT, Claude, DeepSeek, YandexGPT, GigaChat, and others) in solving olympiad-style problems at two difficulty levels - the regional stage of the All-Russian School Olympiad in Mathematics (grades 9 11) and the Mathematical Festival (grades 6-7). Model solutions were evaluated by experts according to standard olympiad grading criteria. We reveal pronounced limitations of LLMs in formal deductive mathematical reasoning. The study substantiates the distinction between different types of mathematical thinking and demonstrates the absence of proof-planning mechanisms in current models. These findings are of interest for understanding the nature of mathematical creativity and for evaluating the prospects of integrating artificial intelligence into science and education.