Комбинированный подход к реконструкции ассоциативных сетей: объединение GraphSAGE и статистики совместной встречаемости

Автор: Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Журнал: Проблемы информатики @problem-info

Рубрика: Прикладные информационные технологии. Биоинформатика

Статья в выпуске: 4 (65), 2024 года.

Бесплатный доступ

Исследование посвящено разработке гибридного подхода к предсказанию молекулярногенетических взаимодействий, объединяющего графовые нейронные сети (ГНС) и анализ совместной встречаемости сущностей в научной литературе. Эффективность метода продемонстрирована на примере ассоциативной сети Escherichia coli, реконструированной с использованием системы ANDSvstcm и ее модуля ANDDigcst. Результаты показали значительное улучшение точности предсказания взаимодействий относительно соответствия топологии исходного графа, по сравнению с использованием только ГНС. Комбинация подходов позволила улучшить Fl-меру с 0.815 до 0.97, а также снизить значение функции потерь с 0.405 до 0.08. Оценка на экспериментально подтвержденных белок-белок взаимодействиях также продемонстрировала высокую эффективность модели (Fl-мера 0.9799, коэффициент корреляции Мэттьюса 0.9597). Предложенный метод может найти применение при анализе сложных биологических систем, планировании экспериментов и оптимизации биотехнологических процессов.

Еще

Графовые нейронные сети, молекулярно-генетические взаимодействия, автоматический анализ текстов

Короткий адрес: https://sciup.org/143184145

IDR: 143184145   |   УДК: 004.85,   |   DOI: 10.24412/2073-0667-2024-4-37-45

Combined Approach to Associative Network Reconstruction: Integrating GraphSAGE and Co-Occurrence Statistics

This study focuses on developing a hybrid approach for predicting molecular-genetic interactions, combining graph neural networks (GNNs) and co-occurrence analysis of entities in scientific literature. The method’s effectiveness is demonstrated using the associative network of Escherichia coli, reconstructed using the ANDSystem and its ANDDigest module. Results showed a significant improvement in the accuracy of interaction predictions, in terms of conformity to the original graph topology, compared to using GNNs alone. The combination of approaches improved the Fl-score from 0.815 to 0.97 and reduced the loss function value from 0.405 to 0.08. Evaluation on experimentally confirmed protein-protein interactions also demonstrated high model efficiency (Fl-score 0.9799, Matthews correlation coefficient 0.9597). The proposed method can be applied in analyzing complex biological systems, planning experiments, and optimizing biotechnological processes.

Еще