Построение частотных словарей на основе исходных текстов с применением лемматизации
Автор: Ковалев Игорь Владимирович, Середин Александр Игоревич, Карасева Маргарита Владимировна, Зеленков Павел Викторович, Храпунова Валерия Владимировна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 4 (50), 2013 года.
Бесплатный доступ
Рассматривается вопрос снижения трудоемкости изучения информационно-терминологического базиса за счет уменьшения объема частотного словаря, на основе которого строится базис. Рассматривается вопрос построения частотных словарей на основе исходных текстов с применением лемматизации для последующего формирования информационно-терминологического базиса. Приводится алгоритм построения частотного словаря на основе исходных текстов с применением лемматизации, а также модификация данного алгоритма с использованием проверки терминов формируемого частотного словаря по специализированному словарю.
Частотный словарь, информационно-терминологический базис, лемматизация
Короткий адрес: https://sciup.org/148177155
IDR: 148177155 | УДК: 004.021
Frequency dictionary construction based on the source text using lemmatization
The issue of reducing the complexity of the information-vocabulary basis study by decreasing the amount of the frequency dictionary (on which base the basis is constructed), is considered. The frequency dictionary construction based on the source text using lemmatization for the subsequent formation of information-vocabulary basis is considered. The algorithm for frequency dictionary construction based on the source text using lemmatization is presented, as well as the modification of this algorithm with checking the terms of the generated frequency dictionary by a specialized dictionary.