Процедура построения частотного словаря на основе лексически связанных компонентов

Ковалев Игорь Владимирович; Лесков Виталий Олегович; Шукшина Екатерина Евгеньевна; Kovalev I.V.; Leskov V.O.; Shukshina E.E.

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Процедура построения частотного словаря на основе лексически связанных компонентов

Автор: Ковалев Игорь Владимирович, Лесков Виталий Олегович, Шукшина Екатерина Евгеньевна

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 2 (23), 2009 года.

Бесплатный доступ

Рассмотрена процедура построения частотного словаря на основе лексически связанных компонентов и практические аспекты ее применения. Сформулирована задача о перестройке частотного мультилингвистического словаря для информационного обеспечения методики обучения иностранной лексике на основе лексически связанных компонентов.

Мультилингвистическая адаптивно-обучающая технология, лексически связанный компонент, информационно-терминологический базис, лск-методика, lrc-methodiс

Короткий адрес: https://sciup.org/148175865

IDR: 148175865

The process of frequency dictionary building on the base of lexical related componets

The procedure of frequency dictionary building on the base of lexical related components and its practical use is considered. The task of frequency multilinguistic dictionary rebuilding for dataware of foreign vocabulary training technique on the basis of lexical related components is defined.

Текст научной статьи Процедура построения частотного словаря на основе лексически связанных компонентов

Как бы стремительно ни развивалась наука и техника, основу обучения иностранной терминологии всегда будут составлять словари. Они видоизменяются, перекладываются на компьютерные системы, делятся по тематикам, но по-прежнему представляют собой не что иное, как совокупность терминов и их языковых аналогов. Что касается специализированных словарей, таких, например, как словарь по медицине или математическому моделированию, то они могут быть построены с помощью программных систем, анализирующих тексты. В основе алгоритмизации этих систем, как правило, лежит частотный анализ терминов.

Словарь, полученный таким образом, перед выходом в печать проходит контроль со стороны лингвистов и специалистов конкретных предметных областей, и чем более качественно реализована программная часть, тем более поверхностный характер имеет их работа. Одним из таких словарей является изданный в 2004 г. англо-немецко-русский частотный словарь по системному анализу [1]. Этот словарь стал одним из результатов развития мультилингвистической адаптивно-обучающей технологии (МЛ-технологии) [2], а если говорить точнее, то он является одной из форм ее информационно-терминологического базиса (ИТБ).

Мультилингвистичность словаря делает возможным в процессе его использования построение однозначных ассоциативных связей между языковыми аналогами английского, немецкого и русского языка при условии, что обучаемый или уже знает один из иностранных языков, или изучает два иностранных языка одновременно. Здесь и далее русский язык рассматривается в качестве оригинального.

Дальнейшее развитие МЛ-технологии привело к созданию методики обучения иностранной лексике на основе лексически связанных компонентов (ЛСК-методи-ке) [3], которая позволяет искусственно формировать строго организованные системы внутриязыковых ассоциативных связей непосредственно в процессе обучения иностранной лексике. Эта методика также учитывает языковые аналоги лексем на всем множестве языков, с которыми она работает.

ЛСК-методика использует специально организованные ИТБ. Их формирование осуществляется посредством анализа текстов на предмет устойчивых лексических сочетаний.

Согласно ЛСК-методике, ИТБ представляет собой совокупность лексически связанных компонентов (ЛС-ком- понентов). Лексема, связанная со всеми без исключения лексемами ЛС-компонента ИТБ, называется основной лексемой, а лексемы, имеющие только одну связь, - связанными лексемами.

В данной статье речь пойдет о решении реальной задачи перестройки частотного мультилингвистического словаря для использования ЛСК-методики. Решение этой задачи целесообразно разделить на следующие этапы:

- подготовка необходимых данных для применения алгоритмов формирования ЛС-компонентов;
- выбор и применение алгоритма формирования ЛС-компонентов;
- корректировка результатов.

Остановимся на каждом этапе более подробно.

Получение необходимых данных для применения алгоритмов формирования ЛС-компонентов. Для использования этих алгоритмов необходимы следующие данные: абсолютные и относительные частоты лексем, данные о лексических связях, в том числе их частотные характеристики.

До обработки словарь представляет собой таблицу, состоящую из терминов английского, немецкого и русского языков, в которой также определены частоты терминов (рис. 1).

Применение алгоритмов формирования ЛС-компо-нентов основано на том, что каждый элемент словаря должен содержать полную информацию о лексических связях в виде ссылки на связанные лексемы и частоты лексических сочетаний. Иначе говоря, информационный базисный компонент словаря необходимо привести к следующему виду:

ОМЛ-компонент = {термин яз_1, термин яз_2,..., термин яз_ N , частотаяз_1, частота яз_2,..., частота яз_ N , сочетание 1_яз_1, сочетание 1_яз_2,..., сочетание

2 _яз_1, сочетание 2_яз_2, ..., сочетание К_яз_N , частота 1_яз_1, частота 1_яз_2, ..., частота 2_яз_1, частота 2_яз_2, _, частота K _яз_ N }.

Это возможно путем прогона использованных при формировании словаря текстов через новые алгоритмы обработки. Но поскольку результаты программной обработки текстов при формировании первой версии словаря корректировались специалистами, то такой подход не даст точных результатов, а повторная экспертиза иностранной терминологии - задача достаточно трудоемкая и дорогостоящая и также не может гарантировать необ- ходимой точности, если речь не идет о формировании словаря заново.

Вместе с тем необходимые данные можно получить без дополнительных затрат, проанализировав терминологический состав словаря. Здесь следует пояснить, что устойчивые лексические сочетания, которые мы ищем, отражают отдельные понятия языка и наиболее востребованные из них вошли в состав словаря как отдельные элементы со своими частотами. Узкое место такого подхода состоит в том, что далеко не все термины, составляющие лексические сочетания, присутствуют в словаре. Однако частота употребления этих терминов равна или, скорее всего, превосходит частоту сочетаний, в которых они употребляются. Это дает нам возможность пополнить словарь недостающими терминами и их языковыми аналогами.

В рассматриваемом нами случае за основу взяты английские термины, затем был выполнен их адекватный перевод на другие языки и определены соответствующие частоты (рис. 2).

Выбор и применение алгоритма формирования ЛС-компонентов. Поскольку объем базиса невелик, а требования к количеству ЛС-компонентов отсутствуют, то целесообразно применить восходящий алгоритм формирования ЛС-компонентов (В-алгоритм) [3]. В нем можно выделить следующие фазы.

1. Подготовка ИТБ.
- 1.1. Для каждой лексемы ИТБ вычисляется значение L, i = 1, ..., n :
  
  - 0,7

I q k и ik + ¹

L i = e ^k q i ^ max, (1)

где ц ik - относительная частота сочетания i- й и к- й лексем, отражающая силу ассоциативной связи; q. - относительная частота, выражающая долю лексической единицы в тексте, подвергшемся статистической обработке при составлении частотного словаря, 0 < q i < 1:

q max q= qiVT", (2)

здесь q i ^max = max q { q i 1 , q i ₂ , ..., q in } - абсолютная частота появления лексической единицы в тексте, q i 1 , q i ₂ , ..., q in -частоты из мультилингвистического словаря, если речь идет о МЛ-технологии.

1.2. ИТБ упорядочивается по убыванию значения L_i таким образом, что чем меньше будет порядковый номер лексемы, тем выше вероятность образования на ее основе ЛС-компонента.
2. Поиск оптимального количества основных лексем.
- 2.1. Осуществляется перебор возможного количества основных лексем к от 1 до объема ИТБ (возможно сужение разработчиком интервала поиска).
- 2.2. Для текущего значения к определяются основные лексемы ( к первых лексем ИТБ).
- 2.3. Осуществляется перебор неосновных (потенциально связанных) лексем и для каждой неосновной лексемы из множества, сформированного в п. 2.2, выбирается наиболее подходящая основная лексема согласно критерию
  
  - 0,7
2.4. Подсчитывается значение функции качества:

- 0,7

⁽ I q k и ik ⁺ ¹⁾ ⁺ q j и ij

^ L i = q i e ^k - L i > max. (3)

Таким образом вычисляется максимальный прирост L ( n ), который обеспечивается вхождением текущей неосновной j -й лексемы как связанной в ЛС-компонент, образованный i -й лексемой (как правило, задается максимум количества связанных лексем).

I q k и ik ⁺ ¹

L ( n ) = I q i e ^k ^ max, (4)
2.5. Если перебор окончен, то выполняется п. 2.6, если иначе, то возврат к п. 2.1.
2.6. Определяется максимум функции качества – оптимальное число основных лексем k _max .
3. Формирование ИТБ как совокупности ЛС-компо-нентов. Искомый ИТБ получается при прохождении пп. 2.2 и 2.3 для k _max основных лексем.

которая показывает сумму взвешенных вероятностей знания лексем по всему базису Чем больше эта сумма, тем более удачно построен базис.

41 Внешний отчетной работка! - К:Ма1га№(пц\!Ваэе>^ловармш\Ех1Г»гпп>^юеарж.ег1				CED
	LB^Us			A
	1
1	1	ul jia'mLj, S	L- jl-JUl 2 JI 1 5	. jiqjeij.11 u, 11
О	X	atereviate a ictaticn 2	c e Bezeichij'j ;bk№i. 2	еечэсиатъ уСзё1-ачене 3
3	3	al hb/ 4	1 in lhcl, 41	". UCCJHC^-. t.S
4	-	at eve dZ	Liter " ,.u	DL IC CIUIC. 'u
Е		alz.n ■. Jan 7	Awlx 4.ion 2 f	aC'.ipakunv-.i-I
R		uni jL 2l^:	L-Ul\|jll j/'."	JMIIHMJ J ' V
J		acceptance. ё	ATiahiTe Sf	■рннше. 33. "рне v. 31
6	9	ikxxv.,4l'	2. JI 11,^2 rn	i.V. I',11,25. UL fX'Jlti Ц ->r ■, -3 /
п	J	direct c;;ec.c 2	с гс т'Zu;rT dm	■ or voh i спс; ос г croc j и i;c ;~уп
11	1)	dkpk у awssv. ?.	Civpkp/i. jiiT,2 in	jC jsi L^Hnt к д ■ ’. । w:, 5
11	11	i uihv Ju null. '.с, 2	uiuiljlhji Z.ijnll 4 in	.11 JI. Il- I JL JLIJIU 2
1?	12	pe alk txwss 2	para ele Z.jiil. 2 ti	~зраппе.~эна^? =ы5ор^.2 _______
13	13	LCC. cut L iWXJ'J 2	■JVJUV Jjlkr 4. Jll 1, 3 "1	■л-ЖЬСЛНС, UIKI- Lbll"4" X , 3
14	К	nncom 3CCCLD, J	Z,"C ItZ. gnl IOC. V431TC' C ■ Zu; ■ r 1 4 m	"0CJX31L аяо-Юсрт j
1F	15	vinul^risr.xi= skvvw,4	V*iJz¥ij?»iZuc’ I" 2 in	jj - jtJjf?M^HHSK ьыСор-х, 2 ik 'jsi.
it	TJ	'-l.i j; j ju.lc^, 3	S.IJU.I ui-xyii 1, 2	JL JL JIU / J J-IHJb^-/ JIL J^JI J yL 1 \|JL -^:
17	17	acceis me:hcd C	Z.jri^--efdde.- f	v«i
II	13	аах.'. b ■ i ic, 2	z. jnl.ee 1,3 1	J\|."jM^ ^LV. Г/1С1 J
11	1 J	□ccczcitilty 4	Z,JC"JlK"4?r Jt	Г cciymi ЮOIL, V V
<				lL
Гл-		;. “\| k™;., . \ 1" -„	.4»-. J, А^ТпЙпИЦ^ ^ \|A~Vi-^yl	I^Trl^i.-J¹ _л A'-V-J^.r ■:, * ‘

Рис. 1. Частотный словарь до обработки

С помощью В-алгоритма было выявлено и сформировано 70 ЛС-компонентов (рис. 3).

Корректировка результатов и оформление словаря. Таким образом, мы получили двухблочный словарь: первый блок состоит из ЛС-компонентов, второй – из элементов, которые не вошли в первый блок. Для удобства использования словаря следует выполнить сортировку блоков по алфавиту (ЛС-компоненты упорядочиваются по основным лексемам) и добавить соответствующие литеры.

Если словарь разработан для печати, то рационально добавить во второй блок терминологию первого блока со ссылками-номерами на соответствующие ЛС-компо-ненты. В таком случае по второму блоку пользователь может производить поиск всей интересующей его терминологии, а по первому обучаться согласно процедурам ЛСК-методики.

Также рекомендуется провести корректировку терминологии в ручном режиме.

Таким образом, рассмотрена процедура построения частотного словаря на основе лексически связанных компонентов и практические аспекты ее применения. В качестве основы взята реальная задача о перестройке частотного мультилингвистического словаря для информационного обеспечения ЛСК-методики. Даны рекоменда-

sjh	iziiiunH u	11 чи i(u6 pa Би ilia \|	K.VJni uWin^U HaMStW^BmcipwiU■II и и null Jiunap m .u
			1 .1			= , U \| ,
7		ас :ccz 4^:j	2. ar 4: "i	ДЗТуГ, 4Ь D-.a:	4^:J	j c: ay j :c: zc, _i:fl35c.qir,Jm :1 MunmaumKrrac
	•J	acicozt "c J	j-itrczcr J t	ЗКЛ11 Д;?Г;"С..
м		ас :cszil:i izy, 4	Z-Kcwlchh:: 2	д:.:г,г ioc-,,3	—
	IC	ac:ts=cr; '7	Hilfs * ni: f \ ng. 2	вгпичэтег&Пг-Ск
11	11	ar.r.n.c, U	1 •«.•VJ’V'D, 4	•■■.•.'If If ТУ .АГ f	" —
	12	■.ли а.^, 3	:bni ld’ (UP Ul"'	itiKin.il'da 3.4	51
1 1	12	яг.:.1ли.1о11.г	2 Aka n .Inti:, i :r	lahnnAH.!^ и-ф.*	■ ?	."■.I г of -ix in1A 4. .m \|\|-тк.пч^-.\|1г1-^-счь-1 н-ктА-нл. n.i;
1 +	1J	?н...и iii.bik.i S	-1 **.\|c,j. n .IhIli 3? i	IMhUI .11 Н\| -, b-j-c-j		.1-1 -j\|h\| Hl ..1. II J .1-1 -j\|m\|^ H.\|c<\|. II .ь lkl\|iklll IhlM-Hr . ^i/kf.
	H	™^i. ¹⁷	•.-№'l/:IJ:\|l« .IF"	::.ib::::ik ЛЙ	Л5	и: Ь: i .^1 f- и- ::i. ■.: \|f>> -i : bi « ^>->114 .i< f:« :1vh ih-i 1. .■ -1... -, ■
	It	иг.иь .3," /	ДУ S J -1, 1 L 111 V ,	•:ii-= H, ЮУЗ^Ы	I-
	I.'	acq.isihr>' 5	rnssi. ig ' ? t	zn.zp '		d«ra«6qi.i=itr.r .а'З'агкяягг .-. znapaan-h*¹ b
	1;^:	нг гн. 1H4	Ln lir г ^:Г 11	.'fi/r 1.1Г V-'		rr • I-I l-Г 1ГП. V r r Г Г I'lTh-IlT lnlL1-ffl"i : ,1ГЙ^- II И :.
1-	IC	dcvdle.S	a4v ui^i У	ilk 1УК:ИриЫа1Ь	25
21	JC	ЗОЛ "	j 14L-	3 riDI - A, I-
>l	JI	ЫУ.ГГА IU	4ly.lt5t.4-	n?T?."Lii:	22	c5"зг«т« "peri 5
91		acapt, 12	)^-i:czc i ■ 4	^ДУЛ-ГаЭЛ-я, ""
?1		accpt:i:i zy ;	Ar: zissjr jshfh £	три-од f хтъ три
1*	-4	acnpry an. 4	Ar;, r.r ir.j, 4 Г	in "ГТ^! ^1, 5
" 5		■JJa^d, 6	J SiV^Jl.,6	LU J IH^JU lb J
?b	7Г	fK.fT.t'A ' 1	•Xlnpliv. ;	-ll-rms-Hk. 5
	.. j	>11 "1" , 1	-iIiIihihii	""KI - II —. ks к- ■	d^u.

JИ'"1Л ?. Ди»:* г Tt I-aCuj» ; isernni / К ladniti QladnHu'J ' У^с»: . . У sli*ul

Рис. 2. Словарь после этапа подготовки данных

	'iT	2	S	1		I 5
1	A		A
5	+■	■1	n" - 4Гу, 4 7	7-rrn i r rii" ?fi f		r mi г rr. tic
S		2	u^e^ufci.e, 5 ‘	iic au, at, 5		tte-:tillHb7,52
■4			iV.OA 1П1ГО П 7 7 1 .mCY 3	ЛС-г. -,1r. T. i.TOnilli.lkr. t. ' f		T.TC.^VjV ЗГ TO 1 .ТГ.71 ,, S9
К			ал ItblA.' S	■"AtlUjbijr.2		JJCN -sM. 1t
G			амя labia асажагк, •	vAifinbaie йяпа J r.liia t. 2^;		,VX.T\F"-a="n> -ir."n-., 1C
T			с1тсг^ 23	J.iiJ 19rri		с!Ы1тНЬ, 5У, оркдок." 1
u в		7 s	dRfl'AS or ЯССПГ^ Zv, т сьГлпс, IC	"тАга j c vaI’scmc, Si m J lt L ir , f.		СГбПАНкГОЧНГ'СП-, м кJu 1 ИН 1J
11		tl	оЛ'агпа A;c"iira~' S	^_sTA"AA'auig't		ППАЛАПк-ЛСТО- --..m-., 1l"
11		"J	□ LCI Ji"	Ji l urn, 2^ hi		-JIG.1J J ^г
1?		■1	o'.^r <4 secure Cy. ’!£	3srajg :?rsc:rdrij-"g if		степень К-ЧИМП-. 21
1t			n::l3t'A2 Jl.l	HCIIV, 21		стксигэти L А 21
			relat ze ac:,'3'?/, 4	'flsd-'f 3erau g^fc 4f,		отнесигел t на- тс-Ю'ЛЕ
15	+■		iriin U'J	—:31 111 in", ГП ’		д wm,n ' 75
lb			у eiiK^- .t y, 57	eltr У1Ш', 55		я к ме- ирный z'
17		■	о .ттс --R v лгт.тп b1	.ткг-опга л - indnnr., G11		ППГ. МО T^pi \|Г.О Д.-.ЙСТПИЛ,
11			Г ^Jltl.^2	rlAg i.l 2 ii		HHI9 Ji,. . 3
10			i "й.тгл л.^-Г о^-, ?C	rtsg'dhfl-JI j-.i /."-f		ИНТЫ^-ЛЛ "НН.'.Й д^истви?,
21		'J	O.L ' 5	^uycanc, 4 hi		ьыу.и, 2^>
		71	АГ'\|Гх'ПЛЛ 1?	AHSS^r ~ЦТГ РЛ Г' Tl		цр ГйГлгяР” 1 7
5n			■ HI .-A- . " Ут-^.^J		Hl-^-	Hi -.о / НТп. а

Рис. 3. Словарь после обработки В-алгоритмом (основные лексемы отмечены знаком плюс)

ции по использованию и получению начальных данных, применению алгоритмов и оформлению результатов.