1. Работа с научной литературой необходима для проведения научных исследований в любой области знаний. В настоящее время в базе данных PubMed собрано более 15000000 (15 млн.) научных рефератов. Каждый год это число увеличивается примерно на 1 миллион публикаций. Анализ такого количества литературных данных, включающий в себя поиск источников, установление взаимосвязи между описанными фактами требует значительных временных затрат. Кроме того, современные подходы к анализу литературных данных требуют непременного обращения к другому важному источнику информации - фактографическим базам данных по молекулярной биологии и генетике (GeneBank, Swiss Prot и др.).
2. В Группе компьютерной протеомики ИЦиГ СО РАН разработана компьютерная система автоматической экстракции знаний из текстов рефератов PubMed и баз данных о молекулярно-генетических взаимодействиях, генетической регуляции, взаимосвязи полиморфизмов с заболеваниями, а также других ассоциациях между фактами, и их представления в виде ассоциативных семантических сетей. Экстракция информации проводится с использованием современных информационных технологий text-mining.
3. Создана база знаний, содержащая более 5 миллионов фактов, а также программа доступа к базе знаний и представления результатов в графическом виде, позволяющая строить ассоциативные сети. Вершинами таких сетей являются молекулярно-генетические объекты, заболевания и процессы, а связями между вершинами выступают типы взаимодействий и ассоциаций.
4. Рассматривались следующие объекты: гены, белки, микроРНК, метаболиты, молекулярные процессы, клеточные компоненты. Для молекулярных взаимодействий и ассоциаций представлены данные по типам клеток и организмам. Система обладает дружественным интерфейсом пользователя со многими функциями, включая пересылки на молекулярно-генетические базы данных, а также рефераты статей, из которых была экстрагирована информация. В докладе приведены примеры использования системы для решения широкого круга задач.
5. Предполагается сделать эту систему доступной сотрудникам института Цитологии и генетики СО РАН. Предполагается проведение практических занятий.
См. также:
Введение
1. Описание системы
2. Результаты
См. также
Обсудить на форуме