Количество публикаций в области биологии, медицины и биотехнологии растет столь быстро, что имеющуюся информацию принципиально невозможно проанализировать для исследовательских и прикладных целей без автоматической обработки с использованием компьютерных средств.
Для решения задачи извлечения из текстов информации о взаимодействиях молекулярно-генетических объектов в мире было разработано несколько подходов, основанных на различных алгоритмах: от простейших (таких как поиск совместной встречаемости названий биологических объектов в текстах) до комплексных методов, включающих лингвистический и семантический анализ, а также методы машинного обучения.
Одним из самых простых алгоритмов реконструкции сетей ассоциаций молекулярно-генетических объектов является поиск совместной встречаемости имен генов, белков и других биологических объектов в текстах. Этот метод был использован в программе PubGene [1] для реконструкции так называемых "литературных сетей", основанных на совместной встречаемости названий белков и генов человека в названиях и текстах рефератов статей из базы данных PubMed.
Дж. Купер [2] с коллегами создали простую систему для предсказания белок-белковых взаимодействий с использованием текстового анализатора, основанную на поиске специальных слов, описывающих взаимодействия, синонимов названий белков и простых правил встречаемости этих слов в реферате статьи. Эта система обладает высокой производительностью, но небольшой точностью (около 60%).
В системах GeneScene [3] и MedScan [4] реализованы алгоритмы, основанные на глубоком лингвистическом анализе: разборе предложения по частям речи, синтаксическом и семантическом анализе. Эти системы позволяют достичь высокой точности распознавания фактов взаимодействий из текстов - 90%, но их чувствительность, т.е. доля распознанных взаимодействий среди всех взаимодействий, описанных в тексте, невысока (около 20 %).
Знания о взаимодействиях молекулярно-генетических объектов содержатся не только в текстах научных публикаций. Созданы тысячи фактографических медико-биологических баз данных, содержащих разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объемы этих баз данных чрезвычайно велики, например, база данных NCBI Gene [5] содержит 1 933 023 записей, количество которых постоянно увеличивается. В базах данных KEGG [9] и других представлены тысячи фактов о биомедицински и био-технологически значимых генных сетях, метаболических путях, путях передачи сигналов и др.
В настоящей работе описана компьютерно-информационная система для автоматического извлечения и интеграции ассоциативных знаний из фактографических баз данных и текстовых источников информации. Под ассоциацией между молекулярно-генетическими объектами понимается прямое или опосредованное их взаимодействие, а также следственно-причинные связи между генами, белками и заболеваниями.
Следует отметить, что отечественные разработки в области извлечения и интеграции знаний при одновременной работе с текстовыми и фактографическими базами данных, ориентированные на фармакологию, биотехнологию и биомедицину, отсутствуют, а имеющиеся за рубежом характеризуются низкой эффективностью.
Система AND позволяет пользователю быстро получать и анализировать большие объемы данных в форме графически визуализированных сетей молекулярно-генетических взаимодействий и их ассоциаций с заболеваниями.
См. также:
Аннотация
1. Описание системы
2. Результаты
См. также
Обсудить на форуме