Эффективность стратегий промт-инжиниринга в генерации математического образовательного контента: экспериментальное исследование

Автор: Данилов А.В., Зарипова Р.Р., Лукоянова М.А., Батрова Н.И., Салехова Л.Л.

Журнал: Science for Education Today @sciforedu

Рубрика: Математика и экономика для образования

Статья в выпуске: 4 т.15, 2025 года.

Бесплатный доступ

Проблема и цель. В статье представлены результаты исследования проблемы генерации качественного образовательного контента по математической грамотности для школьников 5-х классов с использованием генеративного искусственного интеллекта. Проблема обусловлена дефицитом адаптивных заданий, соответствующих стандартам, и ограничениями искусственного интеллекта (галлюцинации, невоспроизводимость). Цель – оценить эффективность авторской стратегии промт-инжиниринга для генерации педагогически релевантных и возрастно-адекватных задач. Методология. Использованы системный и деятельностный подходы. Применены методы анализа опыта применения искусственного интеллекта в образовании, экспериментальной генерации задач с гибридной стратегией промт-инжиниринга (Few-Shot Learning + Chain-of-Thought + Role Prompting) на базе ChatGPT-4o, экспертной оценки (10 учителей математики, стаж ≥ 12 лет) и статистической обработки данных (коэффициент Коэна κ, средние значения µ). Верификация включала генерацию задач в новом контексте (аэропорты) и оценку по критериям адекватности, соответствия возможностям учащихся и сложности. Результаты. Основные результаты заключаются в успешной апробации стратегии, обеспечившей генерацию структурно согласованных задач (κ = 0,82). Подчеркивается критическая значимость техники Chain-of-Thought для создания многошаговых заданий. Авторами отмечается двойная функциональность задач (обучение и диагностика). Эксперимент подтвердил высокую экспертную оценку адекватности (µ = 4,81), соответствия формата (µ = 4,77) и полноты описания (µ = 4,82). Выявлено ограничение по сложности терминологии для части задач. Заключение. Делаются выводы о высокой эффективности комбинированной стратегии промт-инжиниринга для генерации задач для развития математической грамотности учащихся и ее потенциале для интеграции в цифровые платформы. Для внедрения требуется оптимизация лингвистической адаптации и разработка конвейера валидации.

Еще

Промт-инжиниринг, генерация учебных задач, математическая грамотность, генеративный искусственный интеллект, Chain-of-Thought, ролевой промтинг

Короткий адрес: https://sciup.org/147251601

IDR: 147251601   |   УДК: 37.031+37.015.31+51-77   |   DOI: 10.15293/2658-6762.2504.05

Effectiveness of prompt engineering strategies in generating mathematics educational content: An experimental study

Introduction. The article presents the results of a study on generating high-quality educational content in mathematical literacy for 5th-grade students using generative AI. The problem stems from the lack of adaptive assignments that meet educational standards and the limitations of AI (hallucinations, non-reproducibility). The aim of the study is to develop, test, and evaluate the effectiveness of an original prompt-engineering strategy for generating pedagogically relevant and age-appropriate math problems. Materials and Methods. The study employs systemic and activity-based approaches. Methods include analysis of AI applications in education, experimental task generation using a hybrid prompt-engineering strategy (Few-Shot Learning + Chain-of-Thought + Role Prompting) based on ChatGPT-4o, expert evaluation (10 mathematics teachers with ≥12 years of experience), and statistical data processing (Cohen’s κ, mean values µ). Verification involved generating tasks in a new context (airports) and assessing them based on adequacy, student-appropriateness, and complexity criteria. Results. Key findings demonstrate the successful implementation of the strategy, enabling the generation of structurally consistent tasks (κ = 0.82). The critical role of Chain-of-Thought prompting in creating multi-step problems is emphasized. The authors highlight the dual functionality of tasks (learning and assessment). The experiment confirmed high expert ratings for adequacy (µ = 4.81), format compliance (µ = 4.77), and descriptive completeness (µ = 4.82). A limitation in terminology complexity for some tasks was identified. Conclusions. The study concludes that the combined prompt-engineering strategy is highly effective for generating standards-aligned tasks and has strong potential for integration into digital learning platforms. Further optimization of linguistic adaptation and the development of a validation pipeline are required for implementation.

Еще