Искусственный интеллект и машинное обучение. Рубрика в журнале - Программные системы: теория и приложения
Распознавание цифровых последовательностей с использованием свёрточных нейронных сетей
Статья научная
В статье показана актуальность задачи преобразования в текстовой формат элементов изображений, содержащих последовательности машинописных цифр. На примере распознавания табличной информации из отсканированных документов ППК «Роскадастр» предложено возможное решение этой задачи с использованием свёрточных нейронных сетей (CNN). Описаны принципы формирования наборов данных и моделей CNN для распознавания последовательностей из двух, трёх и четырёх цифр. Приведены результаты экспериментального исследования этих моделей и показана их эффективность. Описана интеграция моделей CNN в разрабатываемую в настоящее время информационную систему (ИС), предназначенную для автоматизированного перевода отсканированных документов в их текстовые аналоги.
Бесплатно
Статья научная
В работе проведено сравнительное исследование моделей Mask R-CNN с различными предобученными backbone-архитектурами для реализации инстанс-сегментации объектов недвижимости на аэрофотоснимках. Модели дообучались на специализированном наборе данных ППК «Роскадастр». Анализ точности детектирования ограничивающих рамок и масок сегментации объектов выявил предпочтительные архитектуры — трансформеры Swin (Swin-S и Swin-T) и свёрточная сеть ConvNeXt-T. Высокая точность этих моделей объясняется их способностью учитывать глобальные контекстные зависимости между элементами изображения. Результаты исследования позволяют сформулировать следующие рекомендации по выбору архитектуры backbone: для систем мониторинга в реальном времени, где критична скорость работы, целесообразно применение легковесных моделей (EfficientNet-B3, ConvNeXt-T, Swin-T), для offline задач, требующих максимальной точности (таких как картирование объектов недвижимости), рекомендована крупномасштабная модель Swin-S.
Бесплатно
Сравнительный анализ состязательных методов для нетематической классификации текстов
Статья научная
Нетематическая классификация текстов широко используется в современных приложениях. Одной из проблем, возникающих при решении этой задачи, является наличие смещений в распределении в тренировочных текстовых корпусах. Наиболее существенным видом смещений являются тематические смещения. Для решения этой проблемы в данной работе применяются состязательные методы - Adversarial Domain Adaptation, Energy-based ADA, BERT с контрастной функцией потерь и ADA с контрастной функцией потерь. В работе впервые производится модификация контрастной функции потерь для снижения влияния тематических сдвигов и показывается, что использование состязательных методов повышает точность и надежность классификаторов для задачи определения пола автора текста. Также проводятся эксперименты с LLaMA-3B и показано, что большие языковые модели достигают в режиме few-shot более низкую точность чем дообученные модели с меньшим числом параметров, и требуют больше времени для предсказания.
Бесплатно
Эмбеддинг-ориентированная сегментация объектов с использованием модифицированной U-Net архитектуры
Статья научная
В статье представлена многозадачная нейронная сеть на основе модифицированной архитектуры U-Net для совместной семантической и инстанс-сегментации объектов на аэрофотоснимках. Модель использует симметричный энкодер-декодер с skip-коннекторами и оснащена двумя параллельными выходными головами. Семантическая голова выполняет пиксельную классификацию, а эмбеддинговая генерирует дискриминативные векторные представления для каждого пикселя. Применение специализированной дискриминативной функции потерь обеспечивает компактность кластеров эмбеддингов внутри объектов и их разделение между разными экземплярами. На этапе постобработки кластеризация эмбеддингового поля позволяет однозначно выделить маски отдельных объектов. Эксперименты проводились на специализированном датасете аэрофотоснимков, содержащем 23 076 размеченных объектов пяти классов. Для ключевого класса «Building» на валидационной выборке достигнуты значения IoU = 0.812 и F1-score = 0.880. Сравнение с современными методами (Mask2Former, OneFormer, SAM 2 с LoRA-адаптацией, MR-DeepLabv3+ ) подтверждает конкурентоспособность модели по балансу точности и скорости инференса. Модель демонстрирует эффективность для задач автоматического картографирования и анализа застройки по данным дистанционного зондирования.
Бесплатно