Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов
Автор: Хакимова Аида Хатифовна, Шарнин Михаил Михайлович, Клименко Станислав Владимирович, Золотарев Олег Васильевич, Родина Ирина Вениаминовна
Рубрика: Информатика и вычислительная техника
Статья в выпуске: 4, 2016 года.
Бесплатный доступ
Предложена методика обнаружения интертекстуальных отношений через нахождение неявных ссылок с помощью лингвистических и статистических методов. Интертекстуальность - это наличие в тексте элементов и идей из других текстов. Продемонстрирована возможность выявления временнóй межъязыковой миграции терминов и идей с целью прогноза и определения идеологических траекторий. Предложена новая мера подобия текстов, апробированная на коллекции научных документов и развиваемая путем максимизации корреляции явных и неявных ссылок. Описана методика кластеризации документов в соответствии с мерой подобия текстов. Продемонстрирована возможность применения предложенной меры для анализа экстремистских текстов из Интернета.
Интертекстуальность, миграция идей, мера подобия, кластеризация документов, неявные ссылки
Короткий адрес: https://sciup.org/148160284
IDR: 148160284 | УДК: 004.912
The measure of text similarity as a tool for assessment of intertextuality in large collections of documents
The method for detection of intertextual relations by finding implicit links using linguistic and statistical methods is suggested. Intertextuality is a presence in one text of elements and ideas from other texts. The possibility of identifying of cross-language migration of terms and ideas for prognosis and determination of ideological trajectories is demonstrated. A new text similarity measure is suggested. The measure was tested using collection of scientific documents. The measure was improved by maximizing correlation between explicit and implicit links. A method for documents clustering according to the measure of text similarity is suggested. The possible application of the proposed measure for analysis of extremist texts from the Internet is suggested.
Список литературы Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов
- Федеральный закон от 6 марта 2006 г. № 35-ФЗ «О противодействии терроризму»//СЗ РФ. -2006. -№ 11. -Ст. 1146.
- Федеральный закон от 06.07.2016 № 375-ФЗ «О внесении изменений в Уголовный кодекс Российской Федерации и Уголовно-процессуальный кодекс Российской Федерации в части установления дополнительных мер противодействия терроризму и обеспечения общественной безопасности»//Российская газета. -2016. -11 июля.
- Федеральный закон от 06.07.2016 № 374-ФЗ «О внесении изменений в Федеральный закон "О противодействии терроризму" и отдельные законодательные акты Российской Федерации в части установления дополнительных мер противодействия терроризму и обеспечения общественной безопасности»//Российская газета. -2016. -8 июля.
- Указ Президента РФ от 15 февраля 2006 г. № 116 «О мерах по противодействию терроризму» (с изменениями от 02.08.2006)//СЗ РФ. -2006. -№ 8. -Ст. 897.
- Союз «Некоммерческое партнерство высшего образования "Институт международных социально-гуманитарных связей". Комплексный план противодействия идеологии терроризма в Российской Федерации на 2013-2018 годы» . -URL: http://www.imsgs.ru/students/prevention_of_extremism_and_terrorism/
- Bakier, A.H. An Online Terrorist Training Manual -Part One: Creating a Terrorist Cell//Terrorism Focus, vol. 5, no. 13, The Jamestown Foundation, April 1, 2008. The ek-Is.org Web site has also gone under various other names, including ekhlass.org.
- Bettencourt, L. et al. The power of a good idea: Quantitative modeling of the spread of ideas from epidemiological models//Physica A. -2006. -May. -Pp. 513-536.
- Boucek, C. The Sakinah Campaign and Internet Counter-Radicalization in Saudi Arabia//CTC Sentinel. -2008. -August. -P. 2. -www.carnegieendowment.org/files/CTCSentinel_Vol1Iss9.pdf.
- Charnine, M., Kobozeva, I., Loesov, S., Schagaev, I. Graph Logic Model Framework for Predictive Linguistic Analysis. WorldComp'16, Jul. 25-28, 2016, Las-Vegas, USA . -URL: http://www.academia.edu/26641061/Graph_Logic_Model_Framework_for_Predictive_Linguistic_Analysis
- Charnine, M., Klimenko, S. Measuring of "Idea-based" Influence of Scientific Papers//Proceedings of the 2015 International Conference on Information Science and Security (ICISS 2015), December 14-16, 2015. -Seoul, South Korea. -Pp. 160-164.
- Jacobs, J.A. Receptivity Curves: Educational Research and the Flow of Ideas: Expanded Version, Population Studies Center, University of Pennsylvania, PSC Working Paper Series, PSC 13-10. -2013. -http://repository.upenn.edu/psc_working_papers/50
- Jee, J., Klippel, L., Hossain, M., Ramakrishnan, N., Mishra, B. Discovering the Ebb and Flow of Ideas from Text Corpora//IEEE Computer 45(2). -2012. -Pp. 73-77.
- How to Make Bomb in Kitchen of Mom. Featured in Al-Qaeda's 1st English Magazine//NewsCore. July 1, 2010 . -URL: http://www.foxnews.com/world/2010/07/01/make-bomb-kitchen-mom-featured-al-qaedas-st-english-magazine/
- Kim, S., Wilbur, W.J. Thematic clustering of text documents using an EM-based approach//Biomed Semantics. -2012; 3(Suppl 3). -S. 6.
- Labbe, C., Labbe, D. Detection of Hidden Intertextuality in the Scientic Publications. Dister Anne, Longree Dominique, Purnelle Gerald//11th International Conference on Textual Data Statistical Analysis, Jun. 2012, Liege, Belgium. Liege: LASLA -SESLA. -2012. -Pp. 537-551.
- Strehl, A., Ghosh, J. Cluster Ensembles -a Knowledge Reuse Framework for Combining Multiple Partitions//Journal of Machine Learning Research. -2002. -No. 3. -Pp. 583-617.
- Shaparenko, B., Joachims, T. Information genealogy: Uncovering the flow of ideas in non-hyperlinked document databases//Proceedings of the Conference on Knowledge Discovery and Data Mining (KDD), 2007. -Pp. 619-628.
- Spencer, R. Al-Qaeda newspaper: Make a bomb in the kitchen of your mom. -London: The Daily Telegraph. Archived from the original on July 4, 2010. Retrieved July 1, 2010 . -URL: http://www.webcitation.org/2FAl-Qaeda-newspaper-Make-a-bomb-in-the-kitchen-of-your-mom.html&date=2010-07-04
- Steyvers, M., Griffiths, T. Probabilistic Topic Models. -Hillsdale, NJ, USA: Erlbaum, 2007.
- The use of the Internet for terrorist purposes. -New York: United Nations, 2012. -158 c. . -URL: http://www.unodc.org/documents/frontpage/Use_of_Internet_for_Terrorist_Purposes.pdf
- University of Arizona. Artificial Intelligence Lab Dark Web Project. -www.icadl.org/research/terror/
- Van Eck, N.J., Waltman, L., Dekker, R., & Van den Berg, J. A comparison of two techniques for bibliometric mapping: Multidimensional scaling and VOS//Journal of the American Society for Information Science and Technology. -2010. -No. 61 (12). -Pp. 2405-2416.
- Weimann, G., and C. Winn. The Theater of Terror. -New York: Longman Publication, 1994.
- Аппарат Антитеррористической комиссии Ханты-Мансийского автономного округа: методические рекомендации руководителям органов управления образованием, образовательных учреждений и общественных организаций по вопросам противодействия распространению идеологии терроризма и вербовочной активности радикальных исламистских организаций в молодёжной среде. -Ханты-Мансийск, 2016. -16 с. . -URL: www.n-vartovsk.ru/
- Грачев С.И., Баймашев Ю.М. Проблемные аспекты при определении понятия «терроризм»//Вестник Казанского юридического института МВД России. -2013. -№ 3 (13).
- Грачев С.И., Товашов А.В., Завьялов А.И. Проблемы и особенности использования информационно-пропагандистского фактора в системе антитерроризма//Вестник Казанского юридического института МВД России. -2014. -№ 2 (16). -С. 62-65.
- Ильин Е.П. Актуальные проблемы противодействия вовлечению молодежи в террористическую деятельность, 2009 . -URL: http://nac.gov.ru/publikacii/stati-knigi-broshyury/ilin-ep-aktualnye-problemy-protivodeystviya.html
- Информационная война. Информационное противоборство: теория и практика: монография/В.М. Щекотихин, А.В. Королёв, В.В. Королёва и др.; под общ. ред. В.М. Щекотихина. -М.: Академия ФСО России, ЦАТУ, 2010. -999 с.
- Журавлев Д. Международный терроризм и СМИ: эволюция коммуникационного взаимодействия//Вестник РГГУ. -2009. -№ 14. Серия «Международные отношения. Регионоведение». -С. 157-169.
- Кичерова М.Н., Кыров Д.Н и др. Плагиат в студенческих работах: анализ сущности проблем//Интернет-журнал «Науковедение». -2013. -№ 4.
- Котенко И.В., Юсупов Р.М. Информационные технологии для борьбы с терроризмом. Защита информации//INSIDE. -2009. -№ 2. -С. 74-79.
- Методические материалы для проведения цикла обучающих семинаров. ФГАОУ ВО «Южный федеральный университет». Институт психологии, управления и бизнеса/под рук. П.Н. Ермакова. -Ростов н/Д., 2014. -148 с. -С. 54-80; 85-110.
- Методические рекомендации по совершенствованию пропагандистской работы в сфере противодействия распространению идеологии терроризма в субъектах Российской Федерации/под общ. ред. В.В. Попова. -М., 2013. -48 с. -С. 17-28.
- Русская правда. Халифат по законам интернета: от twitter-революции к цифровому джихаду . -URL: http://ruspravda.info/Halifat-po-zakonam-interneta-ot-twitter-revolyutsii-k-tsifrovomu-dzhihadu-13748.html
- Твиттер-революция . -URL: http://ru.wikipedia.org/wiki/Твиттер-революция
- Шарнин М.М., Сомин Н.В., Кузнецов И.П., Морозова Ю.И., Галина И.В., Козеренко Е.Б. Статистические механизмы формирования ассоциативных портретов предметных областей на основе естественно-языковых текстов больших объемов для систем извлечения знаний//Информатика и её применения. ИПИ РАН -2013. -Т. 7. -№ 2. -С. 92-99.
- Орлов Д.Е., Клименко С.В., Орлова Н.А., Шарнин М.М., Слепцов И.О. Построение и анализ тематических коллекций научных публикаций по тематике «Компьютерная графика, визуализация и виртуальная реальность»//Сборник трудов Международной конференции «Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности» SCVRT2015-16, 21-24 ноября 2015-2016 гг. -Пущино, ЦарьГрад, 2016. -С. 36-42.
- Клименко С.В., Шарнин М.М, Хакимова А.Ф., Золотарев О.В., Мацкевич А.Г. Методы оценки качества и влияния (impact) научных статей для повышения объективности индекса научного цитирования//Вестник Российского нового университета. Серия «Сложные системы: модели, анализ и управление». -2016. -Выпуск 3.
- Золотарев О.В., Шарнин М.М., Клименко С.В. Семантический подход к анализу террористической активности в сети Интернет на основе методов тематического моделирования//Вестник Российского нового университета. Серия «Сложные системы: модели, анализ и управление». -2016. -Выпуск 3.