Биоинформатика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Карта Х хромосомы человека (с сайта NCBI). Сборка человеческого генома - это одно из величайших достижений биоинформатики. 

Биоинформа́тика — совокупность методов и подходов[1], включающих в себя:

  1. математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика).
  2. разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика).
  3. исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем[2].

В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях.

Наиболее часто используемыми инструментами и технологиями в этой области являются языки программирования Java, C#, Perl, C, C++, Python, R; язык разметки - XML; базы данных - SQL; программно-аппаратная архитектура параллельных вычислений - CUDA; пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете - MATLAB, и электронные таблицы

Введение[править | править вики-текст]

Биоинформатика стала важной частью многих областей биологии. В экспериментальный молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологии по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур а также молекулярных взаимодействий.

История[править | править вики-текст]

Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин "биоинформатика", определив его как изучение информационных процессов в биотических системах[3][4]. Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах)[3].

В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживания базы данных для хранения биологической информации

Последовательности. Компьютеры стали необходимыми в молекулярной биологии, когда белковые последовательности стали доступны после того, как Фредерик Сэнгер определил последовательность инсулина в начале 1950х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её "матерью и отцом биоинформатики". Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции.

Геномы. Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сэнгер термин "биоинформатика" был переоткрыт и обозначал создание и техническое обслуживания баз данных для хранения биологической информации, такой как последовательности нуклеотидов ( база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как "Исследование Нуклеиновых Кислот", который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году.

Цели[править | править вики-текст]

Главная цель биоинформатики — способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов, data mining, алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей, нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка, предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.

Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных.

Основные области исследований[править | править вики-текст]

Анализ генетических последовательностей[править | править вики-текст]

Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

Аннотация геномов[править | править вики-текст]

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (англ. Owen White), работавшим в команде Института Геномных Исследований (англ. The Institute for Genomic Research), секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов(участок ДНК, задающий последовательность определённого полипептида либо функциональной РНК), тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем анотиции генома работают сходным образом, но такие программы доступные для анализа геномной ДНК, как GeneMark, используются для нахождения генов, кодирующих белок в Haemophilus influenzae, постоянно меняются и совершенствуются.

Вычислительная эволюционная биология[править | править вики-текст]

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

  • изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
  • сравнивать целые геномы (см. BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, горизонтальный перенос генов, и предсказывать бактериальные специализирующие факторы;
  • строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
  • отслеживать появление публикаций, содержащих информацию о большом количестве видов.

Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией, но две эти области не обязательно связаны. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диверсификация через рекомбинацию или мутации, и выживании в естественном отборе.

Оценка биологического разнообразия[править | править вики-текст]

Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

Основные биоинформационные программы[править | править вики-текст]

  • ACT (Artemis Comparison Tool) — геномный анализ
  • Arlequin — анализ популяционно-генетических данных
  • BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • BioNumerics — коммерческий универсальный пакет программ
  • BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • Clustal — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP — анализ полиморфизма последовательностей ДНК
  • FigTree — редактор филогенетических деревьев
  • Genepop — популяционно-генетический анализ
  • Genetix — популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade — коммерческая программа для интерктивного эволюционного анализа данных
  • MEGA — молекулярно-эволюционный генетический анализ
  • Mesquite — программа для сравнительной биологии на языке Java
  • Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP — филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP — пакет филогенетических программ
  • Phylo_win — филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene — анализ генетического разнообразия популяций
  • Populations — популяционно-генетический анализ
  • PSI Protein Classifier — обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview — филогенетический анализ (с графическим интерфейсом)
  • Sequin — депонирование последовательностей в GenBank, EMBL, DDBJ
  • SPAdes — сборщик бактериальных геномов
  • SplitsTree
  • T-Coffee — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW/ClustalX.
  • UGENE — свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.
  • Velvet — сборщик геномов
  • ZENBU - обобщение результатов

Биоинформатика и вычислительная биология[править | править вики-текст]

Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. В свете изменения шифра научных специальностей (03.00.28 «Биоинформатика» превратилась в 03.01.09 «Математическая биология, биоинформатика») поле термина «биоинформатика» расширилось и включает все реализации математических алгоритмов, связанных с биологическими объектами.

Термины биоинформатика и «вычислительная биология» часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.[источник не указан 1522 дня]

Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии нередко пересекаются с системной биологией. Основные усилия исследователей в этой области направлены на изучение геномов, анализ и предсказание структуры белков, анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция эволюции.

Биоинформатика и её методы используются также в биохимии, биофизике, экологии и в других областях. Основная линия в проектах биоинформатики — это использование математических средств для извлечения полезной информации из «шумных» или слишком объёмных данных о структуре ДНК и белков, полученных экспериментально.

Структурная биоинформатика[править | править вики-текст]

К структурной биоинформатике относится разработка алгоритмов и программ для предсказания пространственной структуры белков. Темы исследований в структурной биоинформатике:

  • Рентгеноструктурный анализ (РСА) макромолекул
  • Индикаторы качества модели макромолекулы, построенной по данным РСА
  • Алгоритмы вычисления поверхности макромолекулы
  • Алгоритмы нахождения гидрофобного ядра молекулы белка
  • Алгоритмы нахождения структурных доменов белков
  • Пространственное выравнивание структур белков
  • Структурные классификации доменов SCOP и CATH
  • Молекулярная динамика

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

Ссылки[править | править вики-текст]