Система реконструкции сетей ассоциативных знаний Associative Network Discovery [10] состоит из модуля анализа текста, базы знаний об ассоциативных взаимодействиях и программы визуализации.
Был разработан алгоритм выявления фактов ассоциаций между молекулярно-генетическими объектами на основе анализа текстов рефератов статей из базы данных PubMed и данных о функциональных и структурных характеристиках объектов. Схема этого алгоритма показана на рис. 1.
Рис. 1. Схема алгоритма автоматической реконструкции молекулярно-генетических взаимодействий
На основе информации из доступных в Интернете баз данных были составлены словари синонимов названий генов (база данных NCBI Gene), белков (SwissProt), микроРНК (mirBase), заболеваний (PharmGKB) и организмов (NCBI Taxonomy). Из словарей были удалены все синонимы длиной менее трех символов, а также синонимы, пересекающиеся с английским словарем общей лексики. Суммарный объем неповторяющихся словосочетаний в построенных словарях составил более 2.5 млн записей.
Словарь слов-связок включает словоформы, встречающиеся в предложениях и описывающие взаимодействия объектов. Он был составлен вручную с помощью экспертного анализа рефератов из базы данных PubMed. На основании этого словаря были сформулированы правила (шаблоны) для извлечения из текста информации о взаимодействиях объектов, С использованием словарей синонимов названий молекулярно-генетических объектов и правил, основанных на словаре слов-связок, производился анализ текстов рефератов из базы данных PubMed, Полученная информация об ассоциациях между белками, генами, метаболитами, микроРНК и заболеваниями заносилась в специализированную базу данных. Объектами в базе являются белки, гены, метаболиты, микроРНК, заболевания и ассоциации между ними. База данных содержит 18 таблиц и реализована с использованием СУБД MySQL 5.0.
Для удобного пользователю графического представления данных о взаимодействиях на языке Java была разработана программа визуализации ассоциативных сетей. Программа позволяет реконструировать молекулярно-генетические сети по запросу к базе данных, извлекать информацию о свойствах объектов сети, редактировать сети с помощью применения фильтров или добавления/удаления объектов по желанию пользователя, получать доступ к базам данных молекулярно-генетических объектов или текстов PubMed (рис. 2).
Рис. 2. Интерфейс программы визуализации ассоциативных сетей
См. также:
Введение
2. Результаты
Список литературы
Обсудить на форуме