GENCODE: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Первые попытки отформатировать статью
(нет различий)

Версия от 14:16, 6 апреля 2018

GENCODE - это научный проект геномных исследований, являющийся частью масштабного проекта ENCODE (“Энциклопедия элементов ДНК”).

Изначально консорциум GENCODE был создан в рамках пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE (примерно 1% генома человека)[1]. сейчас GENCODE нацелен на создание энциклопедии генов и их разнообразия с наиболее точным определением всех возможных характеристик генов в геномах человека и мыши с помощью совокупности методов вычислительного анализа, ручной аннотации, экспериментальной валидации и аннотации всех подтвержденных характеристик генов человеческого генома[2].

Содержание

Содержание: 1Текущее состояние 2 История 3 Основные участники 4 Основная статистика 5 Методология 5.1

Автоматическая аннотация (Ensembl) 5.2 Аннотация (HAVANA) 5.3 Процесс слияния аннотаций Ensembl/HAVANA 5.4 Оценка качества 5.5 Основные методы, использованные в GENCODE 7 6 Использование 6.1 Определение уровня 6.2 Определение статуса гена/транскрипта 6.3 Biodalliance Genome Browser 7 Задачи 7.1 Определение понятия “ген” 7.2 Псевдогены 8 Связанные проекты 8.1ENCODE 8.2Human Genome Project 9Sub Projects 9.1Ensembl 9.2lncRNA Expression Microarray Design 9.3RGASP 10See also 11References 12External links


GENCODE - это научный проект геномных исследований, являющийся частью масштабного проекта ENCODE (“Энциклопедия элементов ДНК”).

Изначально консорциум GENCODE был создан как часть пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE (примерно 1% генома человека) [2]. С учетом достигнутых успехов, сейчас GENCODE нацелен на создание “Энциклопедии генов и их разнообразия”, с максимальной точностью определив все возможные характеристики генов человеческого и мышиного геномов с помощью совокупности методов вычислительного анализа, ручной аннотации, экспериментальной валидации и аннотации всех подтвержденных характеристик генов всего человеческого генома.[1]

Результатом проекта будет некая база аннотаций, включающая все белок-кодирующие локусы с альтернативными сплайсоформами [3], некодирующие транскрибируемые локусы [4] и псевдогены.

Текущее состояние Сейчас продолжается реализация проекта GENCODE в соответствии с его целями фазы 2 (2013 - 2017), а именно: продолжить повышать покрытие и точность базы GENCODE генов человека путем улучшения и уточнения их функциональных аннотаций, основанных на каких-либо функциональных данных, включая белок-кодирующие локусы с альтернативными сплайсоформами, некодирующие локусы и псевдогены; создать базу GENCODE генов мыши с белок-кодирующими локусами и относящимися к ним альтернативными сплайсоформами, некодирующие локусы и псевдогены[6];

Последний релиз генной базы данных GENCODE - это Gencode 20 с данными на момент апреля 2014. В нем использована последняя версия сборки человеческого генома - GRCh38. Начиная с сентября 2009, база человеческих генов GENCODE используется в проекте Ensembl, поэтому каждый новый релиз GENCODE сопровождается релизом нового Ensembl. Например, версии Gencode 20 соответствует Ensembl 76[7]. Последний релиз базы аннотированных генов мышей - Gencode M3 также соответствует данными, имеющимся на апрель 2014 [7]. История В сентябре 2003 года Национальный институт исследований генома человека (NHGRI) открыл публичный исследовательский консорциум, названный ENCODE (Энциклопедия элементов ДНК), для реализации проекта по определению всех функциональных элементов человеческого генома. Проект был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза [8]. В пилотной фазе планировалось исследовать около 30 Mb генома человека. В процессе был создан консорциум GENCODE, предназначенный для картирования на этот фрагмент генома известных белок-кодирующих генов[2]. Впоследствии было объявлено, что результаты первой и второй фаз будут учтены при анализе остального человеческого генома[8].

29 апреля 2005 года произошло замораживание[1] первого релиза с аннотацией 44 регионов человеческого генома. Результаты были использованы в семинаре по оценке деятельности аннотации генома с помощью ENCODE (E-GASP)[2]. В этом релизе содержалась информация о 416 известных геномных локусах, 26 новых локусах с кодирующими последовательностями, 82 транскрибирующихся локусах и 170 псевдогенных локусах.


14 октября 2005 года произошло замораживание второго релиза, содержащего обновления с учётом экспериментальной информации (техники RACE и RT-PCR)[2] и дополненного 4 новыми локусами, содержащими белок-кодирующие последовательности.

В июне 2007 года были опубликованы результаты пилотной фазы[9]. Проект был признан удачным.

В октябре 2007 года институт Сэнгера был удостоен гранта от национального института исследований человеческого генома США (NHGRI) для масштабирования проекта GENCODE[10].

В сентябре 2012 года была опубликована статья с обсуждением результатов 7 (главного) релиза GENCODE (заморозка в декабре 2011 года). Этот релиз представлял собой комбинацию ручной аннотации и автоматической аннотации Ensembl. На момент релиза, 7 версия содержала наиболее полную аннотацию локусов длинных некодирующих РНК, доступную широкой публике[1].

С 2013 года GENCODE был удостоен второго гранта на продолжение работы и аннотацию мышиного генома[11], что позволит сравнительные исследования геномов мыши и человека.

Основные участники

Пилотная фаза Масштабирование проекта Вторая фаза (текущая) Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония Университет Женевы, Швейцария Университет Лозанны, Швейцария Университет Лозанны, Швейцария Калифорнийский Университет, Беркли, США Университет Санта Круз (UCSC), Калифорния, США Университет Санта Круз (UCSC), Калифорния, США Европейский Биоинформатический Институт, Хинкстон, Великобритания Массачусетский технологический институт (MIT), Бостон США Массачусетский технологический институт (MIT), Бостон США


Йельский университет, Нью-Хейвен, США Йельский университет, Нью-Хейвен, США


Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания


Университет Вашингтона (WashU), Сент-Луис, США


Основная статистика Приведена статистика 20 релиза (Апрель 2017).

Категории Всего Категории Всего Всего генов 58.688 Всего транскриптов 194.334 Белок-кодирующие гены 19.942 Белок-кодирующие транскрипты 79.460 Гены длинных некодирующих РНК 14.470 кодирующие полный белок:

54.447 Гены коротких некодирующих РНК 9.513 кодирующие фрагмент белка:

25.013 Псевдогены 14.363 Нонсент-опосредованный распад транскриптов 13.229 обработанные псевдогены:

10.736 Локусы длинных некодирующих РНК 24.489 необработанные псевдогены:

3.202


унитарные псевдогены:

171


полиморфные псевдогены:

26


псевдогены:

2


Генные сегменты T-клеточного рецептора 618


59.575 белок-кодирующие сегменты:

392


13.579 псевдогены:

226



Полнота данных в аннотациях GENCODE непрерывно растёт. Сравнение основной статистики 3 главных релизов GENCODE приведено ниже[14]. Видно, что покрытие генома (количество открытых генов) стабильно увеличивается, в то время как количество белок-кодирующих генов уменьшилось, в основном из-за результатов аннотирования polyA сайтов и Кэп-анализа экспрессии генов (CAGE)[1].


Версия 7 (заморозка в декабре 2010, GRCh37 ) - Ensembl 62 Версия 10 (заморозка в июле 2011, GRCh37 ) - Ensembl 65 Версия 20 (заморозка в апреле 2014, GRCh38 ) - Ensembl 76


Методология Основные способы аннотации GENCODE включают в себя ручную аннотацию, вычислительный анализ и экспериментальный подход. Верификация происходит по результатам лабораторных экспериментов и анализируется вручную[6]. Для валидации результатов сравниваются аннотации, полученные разными способами.

Автоматическая аннотация (ENSEMBL) В терминах Ensembl, транскрипты - это продукты автоматической аннотации генов. При автоматической аннотации используется экспериментальная информация о последовательностях белков и мРНК из публичных баз данных[16]. Также возможна автоматическая аннотация нетранслируемых участков, длинных межгенных некодирующих РНК (на основании данных о последовательностях кДНК и данных из проекта Ensembl) , и коротких межгенных некодирующих РНК[1].

Аннотация вручную (группа HAVANA) В основном аннотируются транскрипты, выравниваемые на геном. В качестве контроля геномные последовательности используются чаще, чем последовательности кДНК. Итоговая последовательность анализируется с использованием программ Ensembl и выдачи программы BLAST, a также предсказания ab initio. Одним из преимуществ этого подхода является возможность комплексного анализа псевдогенов[1]. В состав консорциума GENCODE входит несколько групп, проводящих анализ с помощью программ Ensembl и помогающих аннотаторам в идентификации потенциально пропущенных либо неверно аннотированных геномов, в том числе идентификации аллелей локуса и идентификации сайтов сплайсинга. Для обмена информацией между группами используется трекинговая система AnnoTrack[17]. В процессе могут использоваться данные экспериментов RNASeq, CAGE и Ditag[15]. Однако, предсказания с использованием данных RNASeq сопряжено с некоторыми трудностями (см. GWASP).

Объединение ручной и автоматической аннотаций При объединении все модели транскриптов сравниваются по кластерам перекрывающихся экзонов, а затем по каждому экзону отдельно. Найденные расхождения в дальнейшем рассматриваются с использованием системы AnnoTrack[1].

Оценка качества Моделям транскриптов приписывается высокий/низкий уровень поддержки на основе сравнения с выравниваниях РНК и кДНК, что является метрикой их качества.

Основные методы, используемые в GENCODE 7 Амплификация, секвенирование, картирование и валидация результатов С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания библиотеки с помощью набора Illumina ‘‘Genomic DNA sample prep kit’’. Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) были картированы на референсный геном человека hg19 и предсказанные ампликоны с использованием программы Bowtie. Места соединения экзонов валидировались минимум 10 ридами, содержащими минимум 4-8 нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга[1]

Сравнение транскриптов RefSeq, UCSC, AceView и GENCODE Транскрипты из 4 наборов данных (GENCODE 7, RefSeq, релиз UCSC 2011 года, релиз AceView 2010 года) сравнивались между собой. Перекрывания в аннотации были представлены графически с использованием диаграммы Венна[1].(вставить рисунок?) - почему бы нет)

Анализ c помощью PhyloCSF PhyloCSF использовался для поиска потенциальных кодирующих последовательностей в моделях транскриптов RNASeq на основании эволюционных сигнатур: для каждой модели транскриптов, полученной из данных Illumina, генерировалось выравнивание экзонов позвоночных из UCSC (включая 33 плацентарных млекопитающих)[1].

APPRIS (CNIO) APRIS - ещё одна система, применяющая совокупность вычислительных методов для аннотации человеческого генома. Для каждого гена также выбирается CDs в качестве “главной изоформы” путём анализа информации о белковом продукте гена и об ортологах близких видов. APRIS использовался при масштабировании проекта ENCODE, но также использовался и при аннотации других видов (mus sp., danio sp., ratus sp.,)[18].


Использование/Доступ Текущая версия набора генов человека в GENCODE (выпуск 20) включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков (референсная хромосома/патчи/скаффолды/гаплотипы). Данные аннотации соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, свойства PolyA-фрагмента, аннотированные группами HAVANA, псевдогены (в том числе и ретротранспозонные?), предсказанные алгоритмами Йельского университета и университета Санта Круз (США), но не HAVANA, длинные некодирующие РНК, а также тРНК структуры, предсказанные tRNA-Scan. В качестве примера аннотации ниже приведен фрагмент файла в формате GTF:

Описание колонок в файлах данного формата приведено в таблице ниже.

Номер колонки Содержание Значения/формат 1 номер хромосомы chr{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,M} 2 источник аннотации {ENSEMBL,HAVANA} 3 тип объекта {gene,transcript,exon,CDS,UTR,start_codon, stop_codon,Selenocysteine} 4 начало в координатах генома целочисленное значение (начиная с 1) 5 конец в координатах генома целочисленное значение 6 балл (не использовано) . 7 цепь генома {+,-} 8 геномная фаза (для белок-кодирующих фрагментов) {0,1,2,.} 9 дополнительная информация в формате словаря (ключ:значение) Объяснение в таблице ниже


Описание пар ключ-значение из девятой колонки GTF-файла GENCODE.

Имя ключа Формат значения gene_id ENSGXXXXXXXXXXX transcript_id ENSTXXXXXXXXXXX gene_type список типов gene_status {KNOWN,NOVEL,PUTATIVE} gene_name строка transcript_type список типов transcript_status {KNOWN,NOVEL,PUTATIVE} transcript_name строка exon_number отражает биологическую позицию экзона в транскрипте exon_id ENSEXXXXXXXXXXX level подтвержденный локус, локус, аннотированный вручную, автоматически аннотированный локус Определение уровня Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации: Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR - секвенирования, а также псевдогены, подтвержденные тремя разными методологиями. Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[1]. Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[1].

Определение статуса гена/транскрипта Генам и транскриптам присваиваются статусы “известный”, “новый” и “предполагаемый” в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов. Известный: представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq.[1] Новый: не представленный в базах HGNC или RefSeq, но хорошо подтверждаемые либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе.[1] Предполагаемый: не представленный в базах НGNC или RefSeq, но подтверждаемый признаками существования более короткого и редкого транскрипта.[1] Biodalliance Genome Browser Помимо прочего, сайт GENOCODE содержит геномный браузер для человека и мыши, где пользователь может рассмотреть любой геномный участок, задав номер хромосомы и координаты начала и конца участка (например, 22:30,700,000..30,900,000), а также как ENS-id транскрипта (с версией или без), ENS id гена (с версией или без) и имя гена. Браузер поддерживается Biodalliance.

Задачи Определение понятия “ген” Определение гена никогда не было тривиальной задачей и требовало учета многочисленных нюансов и идей, предложенных на протяжении всех лет с момента расшифровки человеческого генома. В 1900-х годах ген рассматривался как дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до некоего генетического кода, который транскрибируется в РНК. И хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и GENCODE, как его составляющей, были открыты еще более проблематичные аспекты определения - такие как альтернативный сплайсинг (когда в геноме последовательность экзонов разделена интронами), межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов некодирующих РНК. Поскольку GENCODE ставит глобальной целью создание энциклопедии генов и генных вариантов, эти проблемы ставят проект перед серьезной задачей нового определения понятия гена.

Псевдогены Псевдогены - это похожие на белок-кодирующие последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ ретротранспозонных псевдогенов показал, что некоторые из них не просто экспрессируются, но и функционируют, тем самым внося серьезный вклад в биологию человека. Для того, чтобы разобраться со всеми неоднозначностями и сложностями псевдогенов, GENCODE создал онтологию псевдогенов с использованием автоматических, мануальных и экспериментальных методов, чтобы связать различные свойства, такие как свойства последовательности, эволюция и возможная биологическая функция псевдогена[1].

Связанные проекты ENCODE ENCODE (Энциклопедия элементов ДНК) - международный исследовательский консорциум, созданный в в сентябре 2003 года. Организован и финансируется американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI). Задуманный как продолжение проекта «Геном человека», ENCODE ставит целью проведение полного анализа функциональных элементов генома человека. Все результаты, получаемые в ходе реализации проекта, публикуются в общедоступных базах данных. В пилотной фазе (2003-2007 годы) проект координировался группой Ensembl. Подпроект GENCODE был создан консорциумом для аннотации генных продуктов (транскриптов, кодирующих последовательностей, и т.д.). [ссыль на статью про енкод] ==Проект “Геном человека” Проект Человеческий Геном (англ. The Human Genome Project, HGP) — международный научно-исследовательский проект, главной целью которого было определить последовательность нуклеотидов, которые составляют человеческую ДНК. Проект начался в 1990 году под эгидой Национальной организации здравоохранения США. В 2000 году был выпущен рабочий черновик структуры генома, полный геном — в 2003 году, однако и сегодня дополнительный анализ некоторых участков ещё не закончен. Частной компанией Celera Corporation был запущен аналогичный параллельный проект, завершённый несколько ранее международного. Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Канады и Великобритании. После релиза в 2003 году, научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний, и в сентябре 2003 года был запущен проект ENCODE, призванный справиться с этой задачей.

Подпроекты

Ensembl

Ensembl является незаменимой частью проекта GENCODE, осуществляя автоматическую аннотацию по референсному человеческому геному и совмещая эту аннотацию с аннотацией группы HAVANA, осуществляемой вручную. Ensembl предоставил набор человеческих генов, ставший основой всего проекта GENCODE. [23]

Создание микрочипов для определения экспрессии длинных некодирующих РНК (lncRNA)

Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA.[24] Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent.[25]

RGASP

Проект по оценке аннотации полногеномного секвенирования РНК (The RNA-seq Genome Annotation Assessment Project, RGASP) был запущен для того, чтобы оценить эффективность различных вычислительных методов для высококачественного анализа данных по секвенированию РНК. Исходной целью RGASP было представить независимую оценку выравнивания данных RNA-seq, софт (ПО) для аннотации транскриптов (определение, реконструкция и расчет количества), а также определить осуществимость автоматизированной аннотации генома на основе последовательности транскриптомов.[26] RGASP организован в рамках консорциума после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов, и было проведено уже две сессии семинаров для рассмотрения различных аспектов анализа РНК-seq, а также изменения технологий и форматов секвенирования. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном.[27]


См. также

Примечания

  1. Jennifer Harrow, France Denoeud, Adam Frankish, Alexandre Reymond, Chao-Kung Chen. GENCODE: producing a reference annotation for ENCODE // Genome Biology. — 2006. — Т. 7 Suppl 1. — С. S4.1–9. — ISSN 1474-760X. — doi:10.1186/gb-2006-7-s1-s4.
  2. Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans. GENCODE: the reference human genome annotation for The ENCODE Project // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1760–1774. — ISSN 1549-5469. — doi:10.1101/gr.135350.111.