Исследование возможностей генеративного искусственного интеллекта для формирования оценочной обратной связи, близкой к экспертной, при проверке математических задач открытого типа
Автор: Лукоянова М.А., Данилов А.В., Зарипова Р.Р., Салехова Л.Л., Батрова Н.И.
Журнал: Science for Education Today @sciforedu
Рубрика: Математика и экономика для образования
Статья в выпуске: 6 т.15, 2025 года.
Бесплатный доступ
Проблема и цель. В современной образовательной практике существует противоречие между активным внедрением генеративного искусственного интеллекта и недостаточной изученностью его возможностей для предоставления оценочной обратной связи, направленной на развитие математической грамотности школьников. Цель исследования заключается в выявлении возможностей использования генеративной языковой модели как инструмента педагога для формирования оценочной обратной связи, близкой к экспертной, при проверке математических задач открытого типа. Методология. Исследование основано на системно-деятельностном, критериально-ориентированном и компаративном подходах. Применялись методы теоретического анализа научной литературы, критериального оценивания в сочетании с техниками промпт-инжиниринга, а также количественного и качественного анализа для определения согласованности между оценочной обратной связью, сформированной генеративной языковой моделью, и оценочной обратной связью, предоставленной экспертом. Выборку составили 51 учащийся. Результаты. В результате исследования экспериментально подтверждена возможность применения генеративного искусственного интеллекта для формирования оценочной обратной связи в математическом образовании. Разработана и обоснована эффективная стратегия автоматизации процесса проверки математических задач открытого типа на основе критериального оценивания и техник промпт-инжиниринга с использованием генеративной языковой модели GigaChat Pro. Эмпирически установлена умеренная согласованность между оценочной обратной связью, сгенерированной GigaChat Pro, и оценкой педагога-эксперта по ключевым метрикам: точность (Accuracy) составила 73 %, коэффициент Коэна (k) достиг 0,57, семантическое соответствие текстовых комментариев (BertScore F1) – 0,614. Заключение. Проведенное исследование позволяет сделать вывод, что генеративная языковая модель обладает значительным потенциалом для трансформации практики педагогического оценивания математических задач открытого типа. Выявлены следующие возможности применения генеративной языковой модели: автоматизация процесса оценочной обратной связи экспертного уровня; персонализация оценочной обратной связи; масштабирование практики критериально-ориентированного оценивания. Повышению качества оценочной обратной связи будут способствовать: оптимизация оценочных промптов, внедрение мультиагентной верификации и механизмов выборочного педагогического контроля.
Оценочная обратная связь, генеративные языковые модели, критериальное оценивание, техники промпт-инжиниринга, задачи открытого типа, математическая грамотность
Короткий адрес: https://sciup.org/147252839
IDR: 147252839 | УДК: 004.8+51-77+37.031 | DOI: 10.15293/2658-6762.2506.07
Research on the potential of generative artificial intelligence for providing expert-level evaluative feedback in open-ended mathematical problems assessment
Introduction. Modern education faces a contradiction between the active integration of generative artificial intelligence and its underexplored potential for providing evaluative feedback in development students’ mathematical literacy. The purpose of the article is to identify the potential of using a generative language model as a teacher’s tool for generating expert-level evaluative feedback when assessing open-ended mathematical problems Materials and Methods. The research is based on systemic-activity, criteria-oriented, and comparative approaches. Methods employed included theoretical analysis of scholarly literature, criteria-based assessment combined with prompt engineering techniques, as well as quantitative and qualitative analysis to determine the agreement between the evaluative feedback generated by the language model and that provided by a human expert. The sample consisted of 51 students Results. The research experimentally confirmed the feasibility of using generative artificial intelligence for providing evaluative feedback in mathematics education. An effective strategy for automating the assessment of open-ended mathematical problems was developed and substantiated, based on criteria-based assessment and prompt engineering techniques using GigaChat Pro language model. Empirical data revealed a moderate agreement between the evaluative feedback generated by GigaChat Pro and that provided by an expert teacher: accuracy reached 73%, Cohen’s coefficient (k) was 0,57, and the semantic similarity of textual comments (BertScore F1) was 0,614. Conclusions. The research concludes that generative language model holds significant potential for transforming assessment practice of open-ended mathematical problems. Key applications include automating and personalizing expert-level evaluative feedback, and scaling criteria-based assessment. Feedback quality is enhanced by optimizing assessment prompts, implementing multi-agent verification, and introducing selective assessment.