Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома
Автор: Харчевникова Ангелина Сергеевна, Савченко Андрей Владимирович
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений, распознавание образов
Статья в выпуске: 4 т.44, 2020 года.
Бесплатный доступ
В работе рассматривается задача извлечения предпочтений пользователя по его фотоальбому. Предложен новый подход на основе автоматического порождения текстовых описаний фотографий и последующей классификации таких описаний. Проведен анализ известных методов создания аннотаций по изображению на основе свёрточных и рекуррентных (Long short-term memory) нейронных сетей. С использованием набора данных Google’s Conceptual Captions обучены новые модели, в которых объединяются характерные признаки фотографии и выходы блока рекуррентной нейронной сети. Исследовано применение алгоритмов обработки текстов для преобразования полученных аннотаций в пользовательские предпочтения. Проведены экспериментальные исследования с помощью наборов данных Microsoft COCO Captions, Flickr8k и специально собранного набора данных, отражающего интересы пользователя. Показано, что наилучшее качество определения предпочтений достигается с помощью методов поиска ключевых слов и суммаризации текстов из Watson API, которые оказываются на 8 % точнее по сравнению с традиционным латентным размещением Дирихле. При этом описания, порожденные с помощью обученных моделей, классифицируются на 1 - 7 % точнее известных аналогов.
Анализ предпочтений пользователя, обработка изображений, текстовое описание изображений, сверточные нейронные сети
Короткий адрес: https://sciup.org/140250030
IDR: 140250030 | DOI: 10.18287/2412-6179-CO-678
Список литературы Извлечение предпочтений пользователя на основе методов автоматического порождения текстовых описаний изображений фотоальбома
- Singhal, A. Use of deep learning in modern recommendation system: A summary of recent works [Electronical Resource] / A. Singhal, P. Sinha, R. Pant // arXiv preprint arXiv:1712.07525. - 2017. - URL: https://arxiv.org/abs/1712.07525 (request date 4.12.2019).
- Demochkin, K.V. Visual product recommendation using neural aggregation network and context gating / K.V. Demochkin, A.V. Savchenko // Journal of Physics: Conference Series. - 2019. - Vol. 1368, Issue 3. - 032016.
- Kharchevnikova, A.S. Neural networks in video-based age and gender recognition on mobile platforms / A.S. Kharchevnikova, A.V. Savchenko // Optical Memory and Neural Networks (Information Optics). - 2018. - Vol. 27, Issue 4. - P. 246-259.
- Grechikhin, I. User modeling on mobile device based on facial clustering and object detection in photos and videos / I. Grechikhin, A.V. Savchenko. - In: Proceedings of the iberian conference on pattern recognition and image analysis (IbPRIA) / ed. by A. Morales, J. Fierrez, J. Sánchez, B. Ribeiro. - Cham: Springer, 2019. - P. 429-440.
- Rassadin, A.G. Scene recognition in user preference prediction based on classification of deep embeddings and object detection / A.G. Rassadin, A.V. Savchenko. - In: Proceedings of international symposium on neural networks (ISNN) / ed. by H. Lu, [et al.]. - Springer Nature Switzerland AG, 2019. - P. 422-430.
- Szegedy, C. Going deeper with convolutions / C. Szegedy // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2015. - P. 1-9.
- Howard, A.G. MobileNets: Efficient convolutional neural networks for mobile vision applications [Electronical Resource] / A.G. Howard, M. Zhu, B Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, H. Adam. - arXiv preprint arXiv:1704.04861. - 2017. - URL: https://arxiv.org/abs/1704.04861 (request date 4.12.2019).
- Wang, R. Covariance discriminative learning: A natural and efficient approach to image set classification / R. Wang, H. Guo, L.S. Davis, Q. Dai // IEEE Conference on Computer Vision and Pattern Recognition. - 2012. - P. 2496-2503.
- Wang, L. Transferring deep object and scene representations for event recognition in still images / L. Wang, Z. Wang, Y. Qiao, L. Van Gool // International Journal of Computer Vision. - 2018. - Vol. 126, Issues 2-4. - P. 390-409.
- Xiong, Y. Recognize complex events from static images by fusing deep channels / Y. Xiong, K. Zhu, D. Lin, X. Tang // Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR). - 2015. - P. 1600-1609.
- Фурман, Я.А. Точечные поля и групповые объекты / Я.А. Фурман, А.А. Роженцов, Р.Г. Хафизов, Д.Г. Хафизов, А.В. Кревецкий, Р.В. Ерусланов; под ред. Я.А. Фурмана. - М: Физматлит, 2014. - 440 с. - 978-5-9221-1604-6.
- ISBN: 9785922116046
- Vorontsov, K. Additive regularization of topic models / K. Vorontsov, A. Potapenko // Machine Learning. - 2015. - Vol. 101. - P. 303-323.
- Rosen-Zvi, M. The author-topic model for authors and documents / M. Rosen-Zvi // Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. - 2004. - P. 487-494.
- Blei, D.M. Latent Dirichlet allocation / D.M. Blei, A.Y. Ng, M.I. Jordan // Journal of Machine Learning Research. - 2003. - Vol. 3. - P. 993-1022.
- Ferrucci, D.A. Introduction to "this is Watson" / D.A. Ferrucci // IBM Journal of Research and Development. - 2012. - Vol. 56, Issue 3.4. - P. 1:1-1:15.
- Lally, A. Question analysis: How Watson reads a clue / A. Lally, J. Prager, M. McCord, B. Boguraev, S. Patwardhan, J. Chu-Carroll // IBM Journal of Research and Development. - 2012. - Vol. 56, Issue 3.4. - P. 2:1-2:14.
- Fan, J. Automatic knowledge extraction from documents / J. Fan, A. Kalyanpur, D. Gondek, D. Ferrucci // IBM Journal of Research and Development. - 2012. - Vol. 56, Issue 3.4. - P. 5:1-5:10.
- Савченко, А.В. Тригонометрическая система функций в проекционных оценках плотности вероятности нейросетевых признаков изображений / А.В. Савченко // Компьютерная оптика. - 2018. - Т. 42, № 1. - С. 149-158. -
- DOI: 10.18287/2412-6179-2018-42-1-149-158
- Simonyan, K. Very deep convolutional networks for large-scale image recognition [Electronical Resource] / K. Simonyan, A. Zisserman. - arXiv preprint arXiv:1409.1556. - 2014. - URL: https://arxiv.org/abs/1409.1556 (request date 4.12.2019).
- Tanti, M. Where to put the image in an image caption generator / M. Tanti, A. Gatt, K.P. Camilleri // Natural Language Engineering. - 2018. - Vol. 24, Issue 3. - P. 467-489.
- Wang, M. A parallel-fusion RNN-LSTM architecture for image caption generation / M. Wang, L. Song, X. Yang, C. Luo // Proceedings of the IEEE International Conference on Image Processing (ICIP). - 2016. - P. 4448-4452.
- Vinyals, O. Show and tell: A neural image caption generator / O. Vinyals, A. Toshev, S. Bengio, D. Erhan // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2015. - P. 3156-3164.
- Kiros, R. Multimodal neural language models / R. Kiros, R. Salakhutdinov, R. Zemel // Proceedings of the International Conference on Machine Learning (ICML). - 2014. - P. 595-603.
- Vijayakumar, A.K. Diverse beam search: Decoding diverse solutions from neural sequence models [Electronical Resource] / A.K. Vijayakumar, M. Cogswell, R. Selvaraju, Q. Sun, S. Lee, D. Crandall, D. Batra. - arXiv preprint arXiv:1610.02424. - 2016. - URL: https://arxiv.org/abs/1610.02424 (request date 4.12.2019).
- Bernardi, R. Automatic description generation from images: A survey of models, datasets, and evaluation measures / R. Bernardi, R. Cakici, D. Elliott, A. Erdem, E. Erdem, N. Ikizler-Cinbis, B. Plank // Journal of Artificial Intelligence Research. - 2016. - Vol. 55. - P. 409-442.
- Lin, T.Y. Microsoft COCO: Common objects in context / T.Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, C. Zitnick // Proceedings of the European conference on computer vision (ECCV). - 2014. - P. 740-755.
- Chen, X. Microsoft COCO captions: Data collection and evaluation server [Electronical Resource] / X. Chen, H. Fang, T. Lin, R. Vedantam, S. Gupta, P. Dollar. - arXiv preprint arXiv:1504.00325. - 2015. - URL: https://arxiv.org/abs/1504.00325 (request date 4.12.2019).
- Sharma, P. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning / P. Sharma, N. Ding, S. Goodman, R. Soricut // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL). - 2018. - Vol. 1. - P. 2556-2565.
- Papineni, K. BLEU: a method for automatic evaluation of machine translation / K. Papineni, S. Roukos, T. Ward, W.J. Zhu // Proceedings of the 40th annual meeting on association for computational linguistics (ACL). - 2002. - P. 311-318.
- Denkowski, M. Meteor universal: Language specific translation evaluation for any target language / M. Denkowski, A. Lavie // Proceedings of the Ninth Workshop on Statistical Machine Translation. - 2014. - P. 376-380.
- Vedantam, R. CIDEr: Consensus-based image description evaluation / R. Vedantam, C.L. Zitnick, D. Parikh // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - 2015. - P. 4566-4575.
- Goldberg, Y. Word2Vec explained: Deriving Mikolov et al.'s negative-sampling word-embedding method [Electronical Resource] / Y. Goldberg, O. Levy. - arXiv preprint arXiv:1402.3722. - 2014. - URL: https://arxiv.org/abs/1402.3722 (request date 4.12.2019).
- Manning, C.D. Foundations of statistical natural language processing / C.D. Manning, H. Schütze. - MIT Press, 1999.
- Харчевникова, А.С. Свёрточные нейронные сети в задаче распознавания пола и возраста по видеоизображению / А.С. Харчевникова, А.В. Савченко. - В кн.: Сборник трудов IV Международной конференции и молодёжной школы "Информационные технологии и нанотехнологии" (ИТНТ 2018). - Самара: Предприятие "Новая техника", 2018. - С. 916-924.