Gerontology Explorer
База знаний по геронтологии
Форум Рейтинг способов продления жизни Новые материалы Email-рассылка: информация о новых материалах на сайте RSS-канал: информация о новых материалах на сайте Поиск Указатель Экспорт, импорт

     
Введение

 

Количество публикаций в области биологии, медицины и биотехнологии растет столь быстро, что имеющуюся информацию принципиально невозможно проанализировать для исследовательских и прикладных целей без автоматической обработки с использованием компьютерных средств.

 

Для решения задачи извлечения из текстов информации о взаимодействиях молекулярно-генетических объектов в мире было разработано несколько подходов, основанных на различных алгоритмах: от простейших (таких как поиск совместной встречаемости названий биологических объектов в текстах) до комплексных методов, включающих лингвистический и семантический анализ, а также методы машинного обучения.

 

Одним из самых простых алгоритмов реконструкции сетей ассоциаций молекулярно-генетических объектов является поиск совместной встречаемости имен генов, белков и других биологических объектов в текстах. Этот метод был использован в программе PubGene [1] для реконструкции так называемых "литературных сетей", основанных на совместной встречаемости названий белков и генов человека в названиях и текстах рефератов статей из базы данных PubMed.

 

Дж. Купер [2] с коллегами создали простую систему для предсказания белок-белковых взаимодействий с использованием текстового анализатора, основанную на поиске специальных слов, описывающих взаимодействия, синонимов названий белков и простых правил встречаемости этих слов в реферате статьи. Эта система обладает высокой производительностью, но небольшой точностью (около 60%).

 

В системах GeneScene [3] и MedScan [4] реализованы алгоритмы, основанные на глубоком лингвистическом анализе: разборе предложения по частям речи, синтаксическом и семантическом анализе. Эти системы позволяют достичь высокой точности распознавания фактов взаимодействий из текстов - 90%, но их чувствительность, т.е. доля распознанных взаимодействий среди всех взаимодействий, описанных в тексте, невысока (около 20 %).

 

Знания о взаимодействиях молекулярно-генетических объектов содержатся не только в текстах научных публикаций. Созданы тысячи фактографических медико-биологических баз данных, содержащих разнообразную информацию о биологических объектах и их взаимодействиях на уровне геномов, клеток и организмов. Объемы этих баз данных чрезвычайно велики, например, база данных NCBI Gene [5] содержит 1 933 023 записей, количество которых постоянно увеличивается. В базах данных KEGG [9] и других представлены тысячи фактов о биомедицински и био-технологически значимых генных сетях, метаболических путях, путях передачи сигналов и др.

 

В настоящей работе описана компьютерно-информационная система для автоматического извлечения и интеграции ассоциативных знаний из фактографических баз данных и текстовых источников информации. Под ассоциацией между молекулярно-генетическими объектами понимается прямое или опосредованное их взаимодействие, а также следственно-причинные связи между генами, белками и заболеваниями.

 

Следует отметить, что отечественные разработки в области извлечения и интеграции знаний при одновременной работе с текстовыми и фактографическими базами данных, ориентированные на фармакологию, биотехнологию и биомедицину, отсутствуют, а имеющиеся за рубежом характеризуются низкой эффективностью.

 

Система AND позволяет пользователю быстро получать и анализировать большие объемы данных в форме графически визуализированных сетей молекулярно-генетических взаимодействий и их ассоциаций с заболеваниями.

 

 

См. также:

    Аннотация

    1. Описание системы

    2. Результаты

    См. также

 

 Обсудить на форуме

 

Изменен: 27.12.10

Узлов всего: 3 914. Узлов на вкладке: 502. Узлов в узле: 0. Последнее обновление: 20.01.13 19:01

Gerontology Explorer ©, 2007 - 2013. Все права защищены. Для правообладателей Обратная связь

Хостинг от uCoz