Введение

Библиотека < Статьи и отдельные главы < "Associative Network Discovery (AND) - компьютерная система для автоматической реконструкции сетей ассоциативных знаний о молекулярно-генетических взаимодействиях", П. С. Деменков, 2008 г. ...

Количество публикаций в области биологии, медицины и биотехнологии растет столь быстро, что имеющуюся информацию принципиально невозможно проанализировать для исследовательских и прикладных целей без автоматической обработки с использованием компьютерных средств.

Для решения задачи извлечения из текстов информации о взаимодействиях молекулярно-генетических объектов в мире было разработано несколько подходов, основанных на различных алгоритмах: от простейших (таких как поиск совместной встречаемости названий биологических объектов в текстах) до комплексных методов, включающих лингвистический и семантический анализ, а также методы машинного обучения.

Одним из самых простых алгоритмов реконструкции сетей ассоциаций молекулярно-генетических объектов является поиск совместной встречаемости имен генов, белков и других биологических объектов в текстах. Этот метод был использован в программе PubGene [1] для реконструкции так называемых "литературных сетей", основанных на совместной встречаемости названий белков и генов человека в названиях и текстах рефератов статей из базы данных PubMed.

Дж. Купер [2] с коллегами создали простую систему для предсказания белок-белковых взаимодействий с использованием текстового анализатора, основанную на поиске специальных слов, описывающих взаимодействия, синонимов названий белков и простых правил встречаемости этих слов в реферате статьи. Эта система обладает высокой производительностью, но небольшой точностью (около 60%).

В системах GeneScene [3] и MedScan [4] реализованы алгоритмы, основанные на глубоком лингвистическом анализе: разборе предложения по частям речи, синтаксическом и семантическом анализе. Эти системы позволяют достичь высокой точности распознавания фактов взаимодействий из текстов - 90%, но их чувствительность, т.е. доля распознанных взаимодействий среди всех взаимодействий, описанных в тексте, невысока (около 20 %).

Знания о взаимодействиях молекулярно-генетических объектов содержатся не только в текстах научных публикаций. Созданы тысячи фактографических медико-биологических баз данных, содержащих разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объемы этих баз данных чрезвычайно велики, например, база данных NCBI Gene [5] содержит 1 933 023 записей, количество которых постоянно увеличивается. В базах данных KEGG [9] и других представлены тысячи фактов о биомедицински и био-технологически значимых генных сетях, метаболических путях, путях передачи сигналов и др.

В настоящей работе описана компьютерно-информационная система для автоматического извлечения и интеграции ассоциативных знаний из фактографических баз данных и текстовых источников информации. Под ассоциацией между молекулярно-генетическими объектами понимается прямое или опосредованное их взаимодействие, а также следственно-причинные связи между генами, белками и заболеваниями.

Следует отметить, что отечественные разработки в области извлечения и интеграции знаний при одновременной работе с текстовыми и фактографическими базами данных, ориентированные на фармакологию, биотехнологию и биомедицину, отсутствуют, а имеющиеся за рубежом характеризуются низкой эффективностью.

Система AND позволяет пользователю быстро получать и анализировать большие объемы данных в форме графически визуализированных сетей молекулярно-генетических взаимодействий и их ассоциаций с заболеваниями.

Источник...

Источник:

Журнал: "Вычислительные технологии", том 13, № 2.

Статья: "Associative Network Discovery (AND) - компьютерная система для автоматической реконструкции сетей ассоциативных знаний о молекулярно-генетических взаимодействиях", П. С. Деменков, 2008 г.

См. также:

"Обычный узел" 1. Описание системы

"Обычный узел" 2. Результаты

"Обычный узел" Список литературы

Обсудить на форуме

Изменен: 5.09.10