Использование метрики Bleu для оценки естественности текста лингвистических стегосистем

Автор: Ахрамеева Ксения Андреевна, Герлинг Екатерина Юрьевна, Мицковский Денис Юрьевич, Прудников Сергей Владимирович

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Управление сложными системами

Статья в выпуске: 2, 2020 года.

Бесплатный доступ

Представлены результаты исследования использования метрики BLEU для оценки естественности текста лингвистических стегосистем. Рассмотрены два метода вложения дополнительной информации: метод замены синонимов и метод перестановки слов в предложении. В рамках исследования производится сравнение оценок текста с помощью метрики BLEU при различных стегопреобразованиях текста, а также оценивается влияние изменений, внесенных стегосистемой, на значение метрики BLEU при расчете. Приводится оценка надежности метрики BLEU в качестве способа анализа текста в случае различных способов стеговложения.

Лингвистическая стеганография, метрика bleu, оценка качества, стегосистема, оценка эффективности

Короткий адрес: https://sciup.org/148309080

IDR: 148309080   |   DOI: 10.25586/RNU.V9187.20.02.P.073

Текст научной статьи Использование метрики Bleu для оценки естественности текста лингвистических стегосистем

Лингвистическая стеганография является перспективным направлением в защите информации ввиду сложности стегоанализа данных стегосистем, однако вместе с тем оценка естественности текста данных систем является проблематичной ввиду необходимости каким-либо образом точно определить качество стеготекста. Для осуществления такой проверки в масштабах сети необходима программа, а для программы нужна определенная метрика – числовой показатель, который может отразить оценку качества стеготек-ста, примерно совпадающую с оценкой стеготекста человеком, поскольку программа не может «понять» смысл слов в стеготексте. Необходимость нахождения программного решения подтверждается наличием множества исследований в данной области, например в работах [6; 7; 10]. В качестве одного из решений для программной реализации оценивания естественности текста впервые было предложено использовать метрику оценки перевода BLEU в работе [9]. При этом метрика BLEU используется для оценки лингвистических стегосистем до сих пор [4].

Теоретические сведения

Лингвистическая стеганография позволяет скрыть дополнительную информацию в обычном тексте, изменяя информацию, которая кодируется на основе лингвистического порядка текста. То есть для скрытия сообщений изменяется сам текст оригинального сообщения – покрывающего объекта (ПО), получается новый текст с тем же смыслом – сте-гообъект (СО). Одним из основных преобразований, используемых в лингвистической стеганографии, является, например, замена синонимов, предполагающая использование пар синонимов для передачи СО. Например, в тексте «Дэвид завел машину и, въехав во двор, поставил ее под каштаном у фасада, затем вытащил чемодан, портфель и висевший

Ахрамеева К.А. и др. Использование метрики BLEU для оценки...    75

на вешалке джинсовый костюм и понес в дом» можно использовать пары абсолютных синонимов (выражения, которые можно заменить другим выражением в любом контексте без изменения его смысла): «машина-автомобиль», «затем-потом», «портфель-сумка» для передачи бит, где первое слово из пар синонимов принимается за 0, а второе – за 1. Например: Дэвид завел автомобиль и, въехав во двор, поставил ее под каштаном у фасада, затем вытащил чемодан, сумку и висевший на вешалке джинсовый костюм и понес в дом. В данном случае передается 101, то есть можно передать как минимум 3 бита. При использовании относительных синонимов можно передать больше информации [1; 2].

Еще одним методом лингвистической стеганографии является стеганография с изменением порядка слов. Для передачи стегосообщения используется порядок слов в предложении. Например:

В Четверг, в центральной части города проходят фестивали и ярмарки .

L T V S M

Данное предложение можно преобразовать в «В центральной части города, в четверг, проходят ярмарки и фестивали». Это дает последовательность TLVMS . И так далее. Всего при данном разделении возможно 5! = 120 перестановок, но вариаций, при которых сохраняется естественность текста, гораздо меньше, а именно, 8: LTVSM, LTVMS, TLVMS, TLVSM, TVMSL, TVSML, LVMST, LVSMT. Следовательно, в предложение можно вложить 3 бита [3].

Используемые до сих пор методы оценки безопасности лингвистических стегосистем можно разделить на две категории: автоматическая оценка и оценка человеком. В работе [9] использовались показатели оценки машинного перевода BLEU, которые автоматически измеряли, насколько близко стегопредложение к оригиналу.

Оценка BLEU – это алгоритм сопоставления строк, который обеспечивает базовые показатели качества для исследователей и разработчиков машинного текста (в данном случае подразумевается текст, преобразованный программой). Хотя в значительной степени понятно, что метрика BLEU имеет много недостатков, она продолжает оставаться основной метрикой для измерения производительности системы машинного текста. Исследования [5] показали, что действительно существует достаточно высокая корреляция с оценкой человеком, но только при правильном использовании BLEU. BLEU – это показатель качества для систем вывода текста, который пытается измерить соответствие между результатами машинного перевода и человеческим переводом. Основная идея BLEU заключается в том, что чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше.

Оценки BLEU отражают только то, как система работает с определенным набором исходных предложений и переводов, выбранных для теста. Поскольку выбранный перевод для каждого сегмента может быть не единственным правильным, часто можно получить плохие оценки хороших переводов. В результате оценки не всегда отражают реальную потенциальную производительность системы, особенно по содержанию, которое отличается от конкретного тестового материала. BLEU не стремится измерять общее качество перевода, а, скорее, фокусируется на строках.

Баллы присваиваются отдельным сегментам обработанного текста – обычно предложениям – путем сравнения их с одним или несколькими качественными человеческими

Выпуск 2/2020

справочными текстами. Когда предложение обрабатывается двумя различными системами вывода текста, можно получить вывод, который соответствует 75% слов эталонного текста, в то время как вывод второй системы вывода текста может соответствовать 55% слов.

Метрика BLEU оценивает текст по шкале от 0 до 1, пытаясь измерить правильность и беглость вывода. Чем ближе к 1 баллу тестовых предложений, тем больше совпадений наблюдается с их человеческими референтными образцами текста и, таким образом, тем лучшей считается систем. Баллы BLEU могут также переводить в проценты от 1 до 100 для упрощения коммуникации, но это не следует путать с процентом точности.

Результат вывода будет равен 1 только в том случае, если он идентичен эталонному человеческому тексту. Но даже две корректные вариации одного текста, созданные человеком, могут набрать только 0,6 или 0,7 балла, поскольку может использоваться разная лексика и фразировка. По этой причине необходимо с осторожностью относиться к очень высоким оценкам BLEU (более 0,7), поскольку это измерение может быть неправильным с завышением оценки.

Метрика BLEU также дает более высокие оценки последовательным совпадающим словам. Следовательно, если строка из четырех слов в выводе MT совпадает с эталонным текстом человека в том же самом точном порядке, это окажет большее положительное влияние на оценку BLEU, чем строка из двух совпадающих слов. Это означает, что точный вывод получит более низкую оценку, если в выводе используются другие, но правильные слова или соответствующие слова в другом порядке слов.

Формулу метрики BLEU можно представить в виде упрощенного выражения [8]:

(   / л1 ^

(   к ) n

k

BLEU = P в I П t

100%,

к i=1 к )V           7

где i – длина n -грамм; k – количество совпадающих n -грамм у эталона (и ссылок) и стего-текста; l – общее количество n -грамм стеготекста. Отношение i также называют точностью. P в – это штраф за краткость, зачастую применяемый при расчете метрики, который рассчитывается следующим образом:

P в

e ( 1 - rc ) , c r,

где r – количествово слов эталона, а c – количество слов в обработанном тексте.

Практическая часть

В рамках исследования используется исходный текст и ссылочные примеры составленного человеком текста, которые необходимы для более точного расчета метрики BLEU исходной стегонограммы.

Исходный текст (эталон – ПО):

У косяка, на изысканном полу, шеф увидел то, чего не заметил сразу: необыкновенный бронзовый колокол. Он поднял его, взмахнул – и сам испугался, потому что раздался оглу-

Ахрамеева К.А. и др. Использование метрики BLEU для оценки...    77

шительный, как на школьном дворе, звон, тотчас разрушивший солнечный мир и тишину дома.

Текст, преобразованный с помощью лингвистической стегосистемы на основе замены синонимов:

У косяка, на изысканном полу, начальник углядел то, чего не приметил сразу: необычный бронзовый колокол. Он поднял его, взмахнул – и сам испугался, потому что раздался громовой, как на школьном дворе, звон, сразу разрушивший солнечный мир и тишину дома.

Текст, преобразованный с помощью стегосистемы на основе изменения порядка слов:

Шеф у косяка, на полу изысканном, увидел то, чего заметил не сразу: бронзовый необыкновенный колокол. Он поднял его, взмахнул – и сам испугался, потому что раздался оглушительный звон, как на школьном дворе, тотчас разрушивший тишину дома и солнечный мир.

Первый cсылочный текст:

Около дверного косяка, на элегантном полу, начальник увидел то, чего он сначала не заметил: необычный бронзовый колокольчик. Он поднял его и помахал им – и сам вздрогнул, потому что раздался оглушительный звук, похожий на школьный колокол, который сразу же разрушил Солнечную тишину и покой дома.

Второй cсылочный текст:

На крыльце, на элегантном полу, Шеф увидел то, чего не заметил сначала: необычный бронзовый колокол. Он поднял его и помахал им – и сам был поражен, потому что раздался оглушительный звук, похожий на звонок школьного двора, который немедленно разбил солнечный мир и тишину дома.

Рассчитывается BLEU согласно совпадениям n -грамм стеготекста и эталона с ссылочными текстами. BLEU рассчитывается для каждого предложения отдельно. Например, для триграмм при сравнении текста, полученного с помощью стегосистемы с изменением порядка слов и эталона с ссылками:

Эталон и ссылки:

У косяка, на изысканном полу, шеф увидел то, чего не заметил сразу: необыкновенный бронзовый колокол.

Около дверного косяка, на элегантном полу, начальник увидел то, чего он сначала не заметил: необычный бронзовый колокольчик.

На крыльце, на элегантном полу, Шеф увидел то, чего не заметил сначала: необычный бронзовый колокол.

Стеготекст:

Шеф у косяка, на полу изысканном, увидел то, чего заметил не сразу: бронзовый необыкновенный колокол.

Таким образом, обнаружено 2 совпадения. В данном случае штраф не учитывается при расчете, поскольку количество слов в эталонном и стеготексте равно, то есть P B равен 1.

Исходя из полученных ниже значений видно, что серьезное падение точности происходит, начиная с триграмм. Также метрика BLEU значительно ниже для стеготекста, полученного при изменении порядка слов, что является серьезным недостатком метрики (табл. 1–2).

78 в ыпуск 2/2020

Таблица 1

Расчет BLEU для стеготекста, полученного при замене синонимов

Параметр

Первое предложение

Второе предложение

Точность для унограмм

14

15

22

23

Точность для биграмм

9

14

22

22

Точность для триграмм

5

13

15

21

Штраф

1

1

BLEU, %

61

88

BLEU общ., %

75

Таблица 2

Расчет BLEU для стеготекста, полученного при изменении порядка слов

Параметр

Первое предложение

Второе предложение

Точность для унограмм

14

15

22

23

Точность для биграмм

3

14

16

22

Точность для триграмм

2

13

11

21

Штраф

1

1

BLEU, %

31

72

BLEU общ., %

52

Расчеты для стеготекста, полученного при замене синонимов: 1

14 9 5 3

BLEU. =1 1    ---- 1 100% = 61%;

1 ^ <  15 14 13 ) J

1

BLEU 2 =

22 22 15 3

: 1 1    --- 1 100% = 88%;

1 <  23 22 21 ) 1

BLEU, = общ

61 + 88^

= 75%.

< 2 )

Расчеты для стеготекста, полученного при изменении порядка слов:

14 3 2 3

BLEU. =1 1    ---- 1 100% = 31%;

  • 1    ^ <  15 14 13 ) J

22 16 11 3

BLEU, =1 1 1   I I 100% = 72%;

  • 2    I I 23 22 21 ) )

BLEU „ =        = 52%.

общ ^    2 J

Ахрамеева К.А. и др. Использование метрики BLEU для оценки...    79

Выводы из исследования

В результате проведенных исследований можно сделать вывод, что метрики оценки машинного перевода недостаточны для оценки естественности текста лингвистических стегосистем, так как BLEU полагается на последовательности слов в стегопредложении, соответствующие тем, которые находятся в предложении ПО, и поэтому не подходит для оценки преобразований, которые существенно изменяют порядок слов. При этом для измерения метрики BLEU необходимо большее количество ссылочных текстов, начиная с триграмм. Для повышения эффективности использования метрики BLEU следует использовать большее количество ссылочных текстов, при этом не целесообразно использовать метрику BLEU для оценки стеготекста в стегосистемах, предполагающих изменение порядка слов.

Список литературы Использование метрики Bleu для оценки естественности текста лингвистических стегосистем

  • Алиев А.Т. Лингвистическая стеганография на основе замены синонимов для текстов на русском языке // Известия Южного федерального университета. Технические науки. 2010. С. 162-171.
  • Тычко А.Ю., Герлинг Е.Ю. Лингвистическая стеганография, сложности цифровой реализации и возможные области применения // Аллея науки. 2018. Т. 3. С. 1119-1123.
  • Цифровая стеганография и цифровые водяные знаки. Ч. 1 / В.И. Коржик и др. СПб.: СПбГУТ, 2016. 226 с.
  • Ali A. Hamzah, Sherif Khattab, Hanaa Bayomi. A Linguistic Steganography Framework Using Arabic Calligraphy // Journal of King Saud University-Computer and Information Sciences. 2019. Vol. 8. P. 4-17.
  • Bonnie Dorr, Matt Snover, Nitin Madnani. Machine Translation Evaluation. URL: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.348.5771 (date of the application: 06.05.2020).
  • Ching-Yun Chang, Stephen Clark. The Secret's in the Word Order: Text-to-Text Generation for Linguistic Steganography // Proc. of COLING 2012. [S. l.], 2012. P. 511-528.
  • Ching-Yun Chang, Stephen Clark. Practical Linguistic Steganography using Contextual Synonym Substitution and a Novel Vertex Coding Method // Computational Linguistics. 2014. Vol. 40. P. 403-448.
  • Philipp Koehn. Statistical Machine Translation. [S. l.], 2010. 433 p.
  • Topkara M., Topkara U., Atallah M.J. Words are Not Enough: Sentence Level Natural Language Watermarking // MCPS ‘06: Proc. of the 4th ACM International Workshop on Contents Protection and Security. [S. l.], 2006. P. 37-46.
  • Zachary M. Ziegler, Yuntian Deng, Alexander M. Rush. Neural Linguistic Steganography // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). [S. l.], 2019. P. 1210-1215.
Еще
Статья научная