Компьютерная лексикография: программные средства и продукт научной отрасли
Автор: Фесенко О.П.
Журнал: Инновационное образование и экономика @journal-omeconom
Рубрика: Проблемы образования
Статья в выпуске: 15, 2014 года.
Бесплатный доступ
В статье рассматриваются вопросы точности терминологического определения прикладной научной отрасли «компьютерная лексикография» и анализируются используемые ею программ- ные средства.
Электронный (компьютерный) словарь, компьютерная лексикография, современная лексикография, пользователь словаря
Короткий адрес: https://sciup.org/14321838
IDR: 14321838
Текст научной статьи Компьютерная лексикография: программные средства и продукт научной отрасли
Современный мир погружен в сферу компьютерной коммуникации, что связано с развитием информационных технологий, появлением различного рода электронных устройств (гаджетов). Сегодня мы имеем возможность быстро получать самую разную информацию, благодаря глобальной сети «Интернет», доступной с любого компьютера, ноутбука, айфона или смартфона. Лексикографическая информация не является исключением. Потребитель (в нашем случае – читатель), нуждаясь в переводе слов с родного языка на иностранный (и наоборот) или испытывая необходимость проверить написание, значение или произношение слова, часто обращается к интернету или электронным словарям, которые разрабатываются в рамках компьютерной лексикографии.
Задача нашей статьи – очертить границы компьютерной лексикографии и показать многообразие программных средств, использующихся в ее рамках.
Самым сложным и наиболее востребованным со стороны потребителя направлением в развитии лексикографической науки, на наш взгляд, является создание компьютерных (электронных) словарей. Это сфера деятельности лексикографов (несмотря на то, что развивается она достаточно интенсивно) вызывает среди ученых много вопросов. Прежде всего, проблема касается самого термина.
Анализируемое нами направление современной лексикографии называют по-разному. В научной литературе можно встретить определения «вычислительная лексикография» [Андрющенко, Марчук],
«кибернетическая лексикография» [Электронные словари и кибернетическая лексикография], «машинная лексикография» [Электронные словари и кибернетическая лексикография, с. 8], «автоматическая / автоматизированная лексикография» [Беляева], «электронная лексикография» [Перванов, с. 8]. Однако в последние годы наиболее употребительным является термин «компьютерная лексикография». И это вполне оправдано, поскольку в данном определении четко обозначено средство создания электронных словарей и инструмент, позволяющий читателю использовать их возможности.
Что понимают сегодня под «компьютерной лексикографией»? Безусловно, как и в общем определении лексикографии, ее «компьютерная» отрасль включает в себя 1) теорию и практику составления электронных словарей и 2) всю совокупность электронных словарей. Однако следует отметить, что само понятие «электронный словарь» неоднородно. Не касаясь пока существующих в науке вариантов термина (электронный, компьютерный, машинный, автоматизированный и пр.), попробуем очертить круг программных средств, которые разрабатываются в рамках компьютерной лексикографии:
-
1) Компьютерные программы, предназначенные для того, чтобы представлять пользователю в удобном виде существующие печатные версии традиционных словарей (не столько языковых (лингвистических), сколько энциклопедических, например: Большая энциклопедия Кирилла и Мефодия [Мега энциклопедия Кирилла и Мефодия], Энциклопедический словарь Брокгауза и Ефрона [Энцикло-
- педический словарь Брокгауза и Ефрона] и т.д.). А также специальные программы, создаваемые под конкретный электронный словарь с учетом их особенностей, характера лексикографического материала и назначения (например, SunRav – для учебных словарей и т.д.).
-
2) Переводческие системы (например, ECTACO, ABBYY Lingvo, Slovoed и т.д.), предполагающие объединение данных различных словарей. Часть таких систем доступна в Интернете и служит платформой для составления все новых и новых словарей [Ассоциация лексикографов LINGVA]. В.П. Селегей предложил особый термин для определения практики составления таких словарей – лингвография [Ассоциация лексикографов LINGVA]. В последние годы подобные переводческие системы используются для составления одноязычных (русскоязычных) словарей различных жаров (терминологических, фразеологических, словарей синонимов, сленга, аббревиатур и т.д.).
-
3) Лексикографические базы данных (ЛБД), являющиеся «информационными системами фактографического типа и содержащими структурированную информацию о лингвистических единицах различного рода. Например, БД по русским прилагательным «EDGE», база фонетических данных и др.» [Мишанкина, с. 27]. Интересно, что встречается совмещение, при котором ЛБД авторы называют электронным (компьютерным) словарем. Это несущественное несовпадение, поскольку некоторые базы данных позволяют оформить словарный материал в виде словаря.
-
4) Программы поддержки лексикографических работ, программы лингвистического анализа и обработки текстов, программы составления конкордансов (конкордансеры). «Эти программы дают возможность получать частоту той или иной языковой единицы по произвольному корпусу текстов, список контекстов, в которых данная единица встретилась. Многие из них позволяют также сортировать контексты по ключевому слову (в исходной форме) или по словоформе, по ближайшему контексту» [Архипов]. Приведем несколько примеров таких программ: TextSTAT - Simples Text Analyse Tool ( http://neon.niederlandistik.fu-berlin.de/textstat/ ), Link Grammar Parser for Russian ( http://slashzone.ru/parser/ ), АОТ-автоматическая обработка текста ( http://aot.ru/download.php ), Лингсофт ( http://www.lingsoft.fi/?lang=en ), Линг-воанализатор ( http://www.rusf.ru/books/analysis/ index.htm), TACT: Textual Analysis Computing Tool ( http://www.indiana.edu/~letrs/help-services/ QuickGuides/about-tact.html) и т.д.
-
5) Компьютерные технологии и программы обработки информации, использующиеся для систематизации словников и словарных статей традиционных (печатных) словарей (например: MS Access, D-Base, Paradox). Сюда можно включить поисковые системы, функционирующие в
сети «Интернет» (см. об этом: [Беликов]). На наш взгляд, данный вид ИТ (далее - информационных технологий) не должен входить в число составляющих термина «компьютерная лексикография», поскольку тогда вся лексикография с момента появления ЭВМ и начала их использования в лингвистике может рассматриваться как компьютерная. Однако стоит учесть, что, например, в процессе разработки поискового модуля «Яндекс» были созданы уникальные авторские алгоритмы открытого (т.е. позволяющего с высокой точностью обрабатывать не входящие в словарь слова) морфологического анализа и синтеза для нескольких языков — ключевого лингвистического инструмента поисковой технологии Яндекса (автор - Илья Сегалович [подробно об этом: Зе-ленков]).
Как видно из представленного перечня программных средств, компьютерная лексикография – чрезвычайно сложная прикладная наука, требующая от исследователя обширных знаний не только в области лингвистики, теории и практики составления словарей. Современный лексикограф должен хорошо ориентироваться в возможностях информационных технологий, уметь выбрать именно тот программный продукт, который наиболее полно отразит назначение и возможности создаваемого электронного словаря. Это особенно важно, учитывая, что печатные и электронные версии словарей – это абсолютно разные лексикографические продукты. Часто исследователь, создав бумажный вариант словаря, не использует или использует не в полном объеме те возможности, которые предоставляет ему сам словарный материал, оказываясь преобразованным в электронный формат. Даже в том случае, когда над создание словаря трудятся команды программистов и филологов, результат не всегда оказывается максимально продуктивным. Сложность состоит и в том, что темпы развития информационных технологий сегодня опережают развитие многих научных отраслей, поэтому неудивительно, что созданный сегодня электронный словарь уже завтра становится устаревшим. Все эти особенности во многом определяют специфику развития компьютерной лексикографии.
Итак, компьютерная лексикография (КЛ) – это:
-
1) прикладная отрасль лексикографии, возникшая в последние десятилетия XX века и призванная осуществить переход от создания традиционных (бумажных) словарей к их электронным вариантам и модификациям с использованием ИТ (специальных компьютерных программ для составления электронных словарей, программ лингвистического анализа и обработки текстов, ЛБД и переводческих систем). Все перечисленные нами программные средства направлены на создание электронных словарей разных типов и жанров. Именно электронный словарь становится главным объектом компьютерной лексикогра-
- фии. При этом существует вероятность того, что компьютерная лексикография станет ведущей научной отраслью, поскольку словари на бумажных носителях медленно, но верно уходят из употребления. В этом отношении мы абсолютно не согласны с теми исследователями, которые полага-
- ют, что КЛ – это временное, переходное явление в науке (см. об этом: [Филиппович]);
-
2) вся совокупность словарей, доступных читателю в электронном формате (при этом совершенно не важно, имеют ли эти словари печатные версии или нет).
Список литературы Компьютерная лексикография: программные средства и продукт научной отрасли
- Андрющенко В.М. Вычислительная лексикография, ее возможности и перспективы/В.М. Андрющенко//Вопросы языкознания. -1986. -№3. -С. 42-52.
- Архипов А.В. Конкорданс/А.В. Архипов//Энциклопедия Фонда знаний «Ломоносов» [Электронный ресурс]. Режим доступа: http://lomonosov-fund.ru/enc/ru/encyclopedia:0127200
- Ассоциация лексикографов LINGVA. Режим доступа: http://www.lingvoda.ru/dictionaries/index.asp
- Беликов В.И. Yandex как лексикографический инструмент/В.И. Беликов//«Компьютерная лингвистика и интеллектуальные технологии». Доклады международной конференции Диалог 2004 [Электронный ресурс]. Режим доступа: http://www.dialog-21.ru/Archive/2004/Belikov.pdf
- Беляева Л.Н. Лингвистические автоматы в современных гуманитарных технологиях/Л.Н. Беляева. -СПб.: ООО «Книжный Дом», 2007. -192 с.
- Зеленков Ю. Г Илья Сегалович и развитие идей компьютерной лингвистики в Яндексе/Ю.Г. Зеленков, А.И. Зобнин, М.Ю. Маслов,В.А. Титов//Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2014 г.). Вып. 13 (20). -М.: Изд-во РГГУ, 2014. -С. 775-786.
- Марчук Ю.Н. Проблемы машинного перевода/Ю. Марчук. -М.: Наука, 1983. -233 с.
- Мега энциклопедия Кирилла и Мефодия [Электронный ресурс]. Режим доступа: http://megabook. ru/
- Мишанкина Н.А. Базы данных в лингвистических исследованиях/Н.А. Мишанкина//Вопросы лексикографии. -2013. -0 №1 (3). -С. 25-33.
- Перванов Я.А. Заметки по электронной лексикографии/Я.А. Перванов//Ithaca NY. Cornell University Library-arxiv.org, -2011. -c. 8.
- Филиппович Ю. Историческая компьютерная лексикография -terra incognita в компьютерном мире/Ю. Филиппович, М. Черннышева [Электронный ресурс]//Компьютерра. -1999. -№ 45. Режим доступа: http://old.computerra.ru/1999/323/3379/
- Электронные словари и кибернетическая лексикография: методические рекомендации к спецкурсу. Сост. О.М. Карпова, О.В. Менагаришвили. -Иваново: Изд-во «Ивановский государственный университет», 2002. -24 с.
- Энциклопедический словарь Брокгауза и Ефрона [Электронный ресурс]. Режим доступа: http://ru.wikisource.org/wiki/ЭСБЕ