Методика автоматизированной разметки изображений и нахождения ключевых слов

Бесплатный доступ

В данной статье предлагается методика автоматизированной разметки изображений и нахождения ключевых слов для них. На практике часто стоит задача понять суть того, что изображено на картинке и перевести это в текстовый формат. Это нужно для задач классификации, кластеризации и других, например, составление текстового описания для фотографии. Основная проблема здесь заключается в том, что современные нейросети обычно обучены распознавать определенное количество классов (обычно 1000). Этого часто не хватает, чтобы получить качественное текстовое описание изображения. Наш мир гораздо сложнее. В данной статье показана методика нахождения ключевых слов, наиболее близко подходящих для описания изображения. Для этого высчитывается близость между вектором изображения и вектором слова. Те вектора слов, которые оказываются наиболее близки к вектору изображения и будут использоваться как ключевые слова. А также, в статье проведено сравнение с обычной классификацией на 1000 классов изображение на датасете ImageNet.

Еще

Нейронные сети, машинное обучение, искусственный интеллект

Короткий адрес: https://sciup.org/170196729

IDR: 170196729   |   DOI: 10.24412/2500-1000-2022-11-2-115-120

Список литературы Методика автоматизированной разметки изображений и нахождения ключевых слов

  • He, K., Zhang, X., Ren, S., & Sun, J. (2015). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". In ICCV 2015.
  • Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S.,.. & Berg, A.C. (2015). "Imagenet large scale visual recognition challenge". In IJCV 2015.
  • Radford A. et al. Learning transferable visual models from natural language supervision // International Conference on Machine Learning. - PMLR, 2021. - С. 8748-8763.
  • Radford A. et al. Language models are unsupervised multitask learners // OpenAI blog. - 2019. - Т. 1. - № 8. - С. 9.
  • Brown T. et al. Language models are few-shot learners // Advances in neural information processing systems. - 2020. - Т. 33. - С. 1877-1901.
  • Kiela D., Bottou L. Learning image embeddings using convolutional neural networks for improved multi-modal semantics // Proceedings of the 2014 Conference on empirical methods in natural language processing (EMNLP). - 2014. - С. 36-45.
  • Tan M., Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks //International conference on machine learning. - PMLR, 2019. - С. 6105-6114.
Еще
Статья научная