Параметрическая таксономия учебных текстов

Бесплатный доступ

Представленное исследование нацелено на решение проблемы типологизации текста как единицы дискурса и выполнено в рамках корпусного подхода с применением методов лингвистической статистики. Исследовательский корпус, общий объем которого превышает 90 тыс. словоформ, включает тексты на русском языке из 13 учебников для 2-го класса российских школ. В результате многофакторного дискриминантного анализа выявлены типологические характеристики текстов учебных дискурсов трех предметных областей - филологии, математики, естествознания. Рассчитаны формулы для классификации текстов по предметным областям. На основе этих формул разработана и валидирована параметрическая модель. В нее входят шесть параметров: среднее количество слов в предложении, среднее количество существительных, среднее количество глаголов и среднее количество прилагательных на предложение, локальный повтор существительного, глобальный повтор аргумента. Расчеты значений лингвистических параметров произведены при помощи автоматического анализатора текстов на русском языке RuLingva. Высокая степень классификационной точности параметрической модели - 80 % - обеспечивает ее достаточную надежность и позволяет применять полученные данные в лингвистической экспертизе, а также для автоматизации лингвистического профилирования текстов. Перспектива исследования связана с инсталляцией модели в RuLingva и разработкой аналогичных моделей для текстов учебного дискурса других предметных областей. Вклад авторов: Р.В. Куприянов - проведение дискриминантного анализа, описание результатов статистической обработки данных, анализ результатов и формулировка выводов; М.И. Солнышкина - разработка концептуального подхода исследования, анализ результатов и формулировка выводов; П.А. Лехницкая - подготовка материала исследования, обработка корпуса текстов в автоматическом анализаторе текстов, описание первичных результатов.

Еще

Дискурс, предметная область, лексические параметры, синтаксические параметры, математическая модель, дискриминантный анализ

Короткий адрес: https://sciup.org/149145105

IDR: 149145105   |   DOI: 10.15688/jvolsu2.2023.6.6

Список литературы Параметрическая таксономия учебных текстов

  • Андреев В. С., 2010. Методы количественного исследования стиля в лингвистике: многомерный подход // Известия Смоленского государственного университета. № 3 (11). С. 100–110.
  • Вахрушева А. Я., Солнышкина М. И., Куприянов Р. В., Гафиятова Э. В., Климагина И. О., 2021. Лингвистическая сложность учебных текстов // Вопросы журналистики, педагогики, языкознания. № 40 (1). С. 89–99. URL: http://jpl-journal.ru/index.php/journal/article/view/78
  • Жеребцова Ж. И., 2007. Использование информационной структуры предложения в обучении иностранных студентов-нефилологов чтению русских учебно-научных текстов: дис. ... канд. пед. наук. СПб. 252 с.
  • Журавлев А. Ф., 1988. Опыт квантитативно-типологического исследования разновидностей устной речи // Разновидности городской устной речи: сб. науч. тр. М.: Наука. С. 84–150.
  • Мартынова Е., Солнышкина М. И., Мерзлякова А., Гизатулина Д., 2020. Лексические параметры учебного текста (на материале текстов учебного корпуса русского языка) // Филология и культура. Philology and Culture: электрон. журн. № 3 (61). С. 72–80. URL: http://www.philologyand-culture.kpfu.ru/?q=node/2728
  • Оборнева И. В., 2006. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: автореф. дис. ... канд. пед. наук. М. 20 c.
  • Разговорная речь в системе функциональных стилей современного русского литературного языка. Лексика, 2009 / [О. Б. Сиротинина и др.]. М.: Либроком. 251 с.
  • Солнышкина М. И., Казачкова М. Б., Харькова Е. В., 2020. Инструменты измерения сложности текстов на английском языке // Иностранные языки в школе: электрон. журн. № 3. С. 15–21. URL: https://www.elibrary.ru/item.asp?id=42609743
  • Солнышкина М. И., Кисельников А. С., 2015. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник Томского государственного университета. Филология. №. 6 (38). С. 86–89.
  • Baayen R. H., van Halteren H., Tweedie F. J., 1996. Outside the Cave of Shadows: Using Syntactic Annotation to Enhance Authorship Attribution // Literary and Linguistic Computing. Vol. 11, № 3. P. 121–132.
  • Biber D., 2006. University Language: A Corpus-Based Study of Spoken and Written Registers. Amsterdam: John Benjamins. VIII, 261 p.
  • Bulté B., Housen A., 2012. Defining and Operationalising L2 Complexity // Dimensions of L2 Performance and Proficiency. Amsterdam: John Benjamins. P. 21–46. DOI: 10.1075/lllt.32.02bul
  • Corlatescu D., Ruseti Ş., Dascalu M., 2022. ReaderBench: Multilevel Analysis of Russian Text Characteristics // Russian Journal of Linguistics. Vol. 26, № 2, P. 342–370. DOI: https://doi.org/10.22363/2687-0088-30145
  • Crossley S. A., Varner L. K., Roscoe R. D., McNamara D. S., 2013. Using Automated Indices of Cohesion to Evaluate an Intelligent Tutoring System and an Automated Writing Evaluation System // Artificial Intelligence in Education. 16th International Conference, AIED 2013, Memphis, TN, USA, July 9–13. Berlin ; Heidelberg: Springer. P. 269–278. DOI: https://doi.org/10.1007/978-3-642-39112-5_28
  • Ermakova L., Solovyev V., Sidorov G., Gelbukh A., 2023. Editorial: Text Complexity and Simplification // Frontiers in Artificial Intelligence. Vol. 6. P. 01–03. DOI: https://doi.org/10.3389/frai.2023.1128446
  • Flesch R., 1948. A New Readability Yardstick // Journal of Applied Psychology. Vol. 32, № 3. P. 221–233. DOI: http://doi.org/ 10.1037/h0057532
  • Gatiyatullina G., Solnyshkina M., Solovyev V., Danilov A., Martynova E., Yarmakeev I., 2020. Computing Russian Morphological Distribution Patterns Using RusAC Online Server // 13th International Conference on Developments in eSystems Engineering (DeSE). Liverpool: IEEE. P. 393–398. DOI: http://doi.org/10.1109/DeSE51703.2020.9450753
  • Graesser A. C., McNamara D. S., Louwerse M. M., Cai Z., 2004. Coh-Metrix: Analysis of Text on Cohesion and Language // Behavior Research Methods, Instruments, & Computers. Vol. 36, iss. 2. P. 193–202. DOI: http://doi.org/10.3758/bf03195564
  • Holmes D., Forsyth R., 1995. The Federalist Revisited: New Directions in Authorship Attribution // Literary and Linguistic Computing. Vol. 10, iss. 2. P. 111–127.
  • Kupriyanov R. V., Solnyshkina M. I., Dascalu M., Soldatkina T. A., 2022. Lexical and Syntactic Features of Academic Russian Texts: A Discriminant Analysis // Research Result. Theoretical and Applied Linguistics. Vol. 8, № 4. P. 105–122. DOI: http://doi.org/10.18413/2313-8912-2022-8-4-0-8
  • Kupriyanov R. V., Bukach O. V., Aleksandrova O. I., 2023. Cognitive Complexity Measures for Educational Texts: Empirical Validation of Linguistic Parameters // Russian Journal of Linguistics. Vol. 27, № 3. P. 641–662. DOI: http://doi.org/10.22363/2687-0088-35817
  • Malvern D., Richards B., Chipere N., Durán P., 2004. Traditional Approaches to Measuring Lexical Diversity // Lexical Diversity and Language Development. L.: Palgrave Macmillan. P. 16–30. DOI: https://doi.org/10.1057/9780230511804
  • McNamara D. S., Graesser A. C., Louwerse M. M., 2012. Sources of Text Difficulty: Across Genres and Grades // Measuring Up: Advances in How We Assess Reading Ability. Lanham: R & L Education. P. 89–116.
  • McNamara D., Graesser A., McCarthy P., Cai Z., 2014. Automated Evaluation of Text and Discourse with Coh-Metrix. Cambridge: Cambridge University Press. XIV, 278 p. DOI: http://doi.org/10.1017/CBO9780511894664
  • Östen D., 2004. The Growth and Maintenance of Linguistic Complexity. Amsterdam, John Benjamins Publishing. X, 333 p.
  • Pallotti G., 2015. A Simple View of Linguistic Complexity // Second Language Research. Vol. 31, № 1. P. 117–134.
  • Seifart F., Danielsen S., Meyer R., Nordhoff S., Pakendorf B., Witzlack-Makarevich A., Zakharko T., 2012. The Relative Frequencies of Nouns, Pronouns, and Verbs Cross-Linguistically Applicant. URL: https://www.semanticscholar.org/paper/The-relative-frequencies-of-nouns-%2C-pronouns-%2C-and-Seifart-Danielsen/cd52cd7091fee4b1781c16a51fe58f87ba642c1c
  • Solnyshkina M. I., Harkova E. V., Kazachkova M. B., 2020. The Structure of Cross-Linguistic Differences: Meaning and Context of ‘Readability’ and Its Russian Equivalent ‘Chitabelnost’ // Journal of Language and Education. Vol. 6, iss. 1. P. 103–119.
  • Solnyshkina M., McNamara D., Zamaletdinov R., 2022. Natural Language Processing and Discourse Complexity Studies // Russian Journal of Linguistics. Vol. 26, № 2. P. 317–341.
  • Solovyev V., Andreeva M., Solnyshkina M., Zamaletdinov R., Danilov A., Gaynutdinova D., 2019. Computing Concreteness Ratings of Russian and English Most Frequent Words: Contrastive Approach // Proceedings – International Conference on Developments in eSystems Engineering, DeSE. October 2019. Kazan: IEEE. Art. № 9073272. P. 403–408.
  • Solovyev V. D., Ivanov V. V., Akhtiamov R. B., 2019. Dictionary of Abstract and Concrete Words of the Russian Language: A Methodology for Creation and Application // Journal of Research in Applied Linguistics. Vol. 10, № S. P. 215–227.
  • Solovyev V., Ivanov V., Solnyshkina M., 2018. Assessment of Reading Difficulty Levels in Russian Academic Texts: Approaches and Metrics // Journal of Intelligent & Fuzzy Systems. Vol. 34, № 5. DOI: http://doi.org/10.3233/JIFS-169489
  • Solovyev V., Solnyshkina M., McNamara D., 2022. Computational Linguistics and Discourse Complexology: Paradigms and Research Methods // Russian Journal of Linguistics. Vol. 26, № 2. P. 275–316.
  • Stamatatos E., Fakotakis N., Kokkinakis G., 2001. Computer-Based Authorship Attribution Without Lexical Measures // Computers and the Humanities. Vol. 35, № 2. P. 193–214.
Еще
Статья научная