GENCODE: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
→‎Псевдогены: иллюстрация
иллюстрация
Строка 148: Строка 148:


== Методология ==
== Методология ==
[[Файл:GENCODE pipeline.gif|мини|382x382пкс|Схема, по которой происходит аннотация локусов GENCODE.<ref>{{Статья|автор=Jonathan M. Mudge, Jennifer Harrow|заглавие=Creating reference gene annotation for the mouse C57BL6/J genome assembly|ссылка=https://link.springer.com/article/10.1007/s00335-015-9583-x|язык=en|издание=Mammalian Genome|год=2015-10-01|том=26|выпуск=9-10|страницы=366–378|issn=0938-8990, 1432-1777|doi=10.1007/s00335-015-9583-x}}</ref>]]

В проекте GENCODE применяется ручная и автоматическая аннотация.
В проекте GENCODE применяется ручная и автоматическая аннотация.



Версия от 11:04, 14 апреля 2018

GENCODE
Содержимое
Описание Энциклопедия генов и генных вариантов
Тип данных Аннотации генов человека и мыши в формате GTF/GFF3
Контакты
Исследовательский центр Институт Сэнгера (Welcome Trust Sanger Institute)
Авторы Harrow J, et al [1]
Дата выпуска Сентябрь 2012
Доступность
Сайт GENCODE
Прочее
Лицензия Открытый доступ
Частота релизов Геном человека - раз в 3 месяца
Геном мыши — раз в 6 месяцев
Версия GENCODE 28 (человеческий геном), M17 (мышиный геном)

GENCODE — проект геномных исследований, являющийся подпроектом ENCODE («Энциклопедия элементов ДНК»).

Kонсорциум GENCODE был создан в рамках пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE[2]. Сейчас проект нацелен на создание энциклопедии генов и их разнообразия с наиболее точным определением всех возможных характеристик генов в геномах человека и мыши с использованием совокупности методов вычислительного анализа, ручнойаннотации, экспериментальной проверки и аннотации всех подтвержденных генных характеристик[3].

Конечная цель проекта - создание базы аннотаций, включающей все белок-кодирующие локусы с альтернативными сплайсоформами[4], некодирующие локусы с обнаруженными транскриптами[5] и псевдогены[6].

История

В сентябре 2003 года Национальный институт исследований генома человека (NHGRI) открыл публичный исследовательский консорциум ENCODE для реализации проекта по определению всех функциональных элементов человеческого генома. Проект был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза[7]. В ходе пилотной фазы планировалось исследовать около 30 Mb генома человека. Для картирования на этот фрагмент генома известных белок-кодирующих генов был создан проект GENCODE[2]. Впоследствии было объявлено, что результаты первой и второй фаз будут учтены при анализе остального человеческого генома[7].

В апреле 2005 года была выпущена первая версия GENCODE с аннотацией 44 локусов человеческого генома[2]. В ней было описано 416 известных геномных локусов, 26 новых белок-кодирующих локусов, 82 транскрибирующихся и 170 псевдогенных локусов. Во втором релизе (14 октября 2005 года) была обновлена и подтверждена информация об аннотированных раньше локусах, в основном, благодаря экспериментальным данным RACE и RT-PCR[2].

В июне 2007 года пилотная фаза ENCODE была завершена[8]. Проект был признан удачным, и институт Сэнгера (Welcome Trust Sanger Institute) получил грант от Национального института исследований человеческого генома США (NHGRI) для масштабирования проекта GENCODE.

В 2012 году был выпущен крупнейший релиз GENCODE 7 (на основе данных на момент декабря 2011 года), в котором была скомбинирована автоматическая аннотация Ensembl и аннотация вручную. С 2013 года GENCODE был удостоен второго гранта на продолжение работы по аннотации генома человека, а также на аннотацию мышиного генома для сравнительных исследований геномов мыши и человека.

В апреле 2018 года была выпущена версия GENCODE 28 (содержащая данные, обработанные до ноября 2017) [9].

Основные участники

Пилотная фаза Масштабирование проекта Вторая фаза (текущая)
Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания
Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония
Университет Женевы, Швейцария Университет Лозанны, Швейцария Университет Лозанны, Швейцария
Калифорнийский Университет, Беркли, США Университет Санта Круз (UCSC), Калифорния, США Университет Санта Круз (UCSC), Калифорния, США
Европейский Биоинформатический Институт, Хинкстон, Великобритания Массачусетский технологический институт (MIT), Бостон США Массачусетский технологический институт (MIT), Бостон США
Йельский университет, Нью-Хейвен, США Йельский университет, Нью-Хейвен, США
Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания
Университет Вашингтона (WashU), Сент-Луис, США

Основная статистика

Полнота данных в аннотациях GENCODE непрерывно растёт. Ниже приведена статистика последней версии GENCODE 28. Эта версия соответствует выпуску Ensembl 92 и содержит генную аннотацию, сделанную по сборке человеческого генома GRCh38, но картированную на GRCh37 (hg19).

Категории Всего Категории Всего
Общее количество генов 58 381 Всего транскриптов 203 835
Белок-кодирующие гены 19 901 Белок-кодирующие транскрипты: 82 335
Гены длинных некодирующих РНК 15 779 - кодирующие полный белок 56 541
Гены малых некодирующих РНК 7 569 - кодирующие фрагмент белка 25 794
Псевдогены: 14 723 Нонсенс-опосредованно распавшиеся транскрипты 14 889
- обработанные псевдогены 10 693 Транскрипты локусов длинных некодирующих РНК 28 468
- необработанные псевдогены 3 519
- унитарные псевдогены 218
- полиморфные псевдогены 38
- псевдогены 18
Генные сегменты иммуноглобулин-T-клеточного рецептора: 645 Общее число различных аннотаций 61 132
- белок-кодирующие сегменты 408 Число генов, к которым относится больше одной аннотации 13 641
- псевдогены 237

Сравнение версий GENCODE

Сравнение основной статистики трёх главных релизов GENCODE приведено ниже[10]. Данные свидетельствуют, что покрытие генома (количество обнаруженных геномных локусов) стабильно увеличивается, в то время как количество белок-кодирующих генов уменьшается — в основном, из-за результатов аннотирования поли(A)-сайтов и Кэп-анализа экспрессии генов (CAGE)[3].

  • Версия 7 (заморозка в декабре 2010, GRCh37) — Ensembl 62
  • Версия 10 (заморозка в июле 2011, GRCh37) — Ensembl 65
  • Версия 20 (заморозка в апреле 2014, GRCh38) — Ensembl 76

Методология

Схема, по которой происходит аннотация локусов GENCODE.[11]

В проекте GENCODE применяется ручная и автоматическая аннотация.

Верификация происходит по результатам лабораторных экспериментов и анализируется вручную[12]. Для валидации результатов сравниваются аннотации, полученные разными способами.

Автоматическая аннотация (ENSEMBL)

В терминах Ensembl, транскриптами называются продукты автоматической аннотации генов. Информация о транскриптах Ensembl основывается на экспериментальных данных о последовательностях белков и мРНК из публичных баз данных[13]. Помимо аннотации белок-кодирующих участков, возможна также автоматическая аннотация нетранслируемых участков, длинных некодирующих РНК (на основании данных о последовательностях кДНК и данных из проекта Ensembl) и коротких некодирующих РНК[3].

Аннотация вручную (группа HAVANA)

HAVANA (Human and Vertebrate Analysis and Annotation) - исследовательская группа, осуществляющая ручную аннотацию транскриптов в проекте GENCODE.

Помимо группы HAVANA, в состав консорциума GENCODE входит ещё несколько групп, проводящих анализ аннотированных локусов с помощью программ Ensembl и помогающих аннотаторам в идентификации потенциально пропущенных либо неверно аннотированных локусов, в том числе идентификации аллелей локуса и идентификации сайтов сплайсинга. Для обмена информацией между группами используется трекинговая система AnnoTrack[14]. В процессе могут использоваться данные экспериментов RNASeq, CAGE и Ditag[15]. Однако нужно заметить, что предсказание аннотаций с использованием данных RNASeq сопряжено с некоторыми трудностями (см. RGASP).

Объединение ручной и автоматической аннотаций

При объединении все модели транскриптов, полученные автоматической и ручной аннотацией, сравниваются по кластерам перекрывающихся экзонов, а затем по каждому экзону отдельно. Найденные расхождения устраняются с использованием системы AnnoTrack, причем приоритетной является аннотация HAVANA (то есть вручную)[3].

Оценка качества

Моделям транскриптов приписывается высокий/низкий уровень поддержки на основе сравнения с выравниваниями РНК и кДНК, что является метрикой их качества. В качестве контроля качества аннотации геномные последовательности используются чаще, чем последовательности кДНК. Итоговая последовательность анализируется с использованием программ Ensembl и BLAST, a также предсказания ab initio. Одним из преимуществ этого подхода является возможность комплексного анализа псевдогенов[3].

Помимо официально вовлечённых в проект групп, над улучшением качества аннотации GENCODE работают независимые исследователи[16].

Основные подходы, используемые в GENCODE 7

Файл:Annotation comparison.png
Перекрывание аннотаций GENCODE, RefSeq и UCSC на уровне белок-кодирующих генов и транскриптов. На уровне транскриптов сравнивались и белок-кодирующие транскрипты, и длинные некодирующие РНК из всех наборов данных. Два транскрипта считались совпадающими, если: 1) в случае мультиэкзонных транскриптов все координаты слияний экзонов совпадали, 2) в случае одноэкзонных структур координаты транскриптов были одинаковы. Аналогично, кодирующие области двух белок-кодирующих транскриптов считались одинаковыми в том случае, когда границы этих областей и входящих в нее границ экзонов совпадали. [17]

Амплификация, секвенирование, картирование и валидация результатов

С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания библиотеки с помощью набора Illumina ‘‘Genomic DNA sample prep kit’’. Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Места соединения экзонов валидировались минимум 10 ридами, содержащими хотя бы 4-8 нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга[3].

Сравнение транскриптов RefSeq, UCSC и GENCODE

Транскрипты из 3 наборов данных (GENCODE 7, RefSeq, релиз UCSC 2011 года) сравнивались между собой. Перекрывания в аннотации были представлены графически с использованием диаграмм Венна[3].

Анализ c помощью PhyloCSF

PhyloCSF использовался для поиска потенциальных кодирующих последовательностей в моделях транскриптов RNASeq на основании эволюционных сигнатур: для каждой модели транскриптов, полученной из данных Illumina, генерировалось выравнивание экзонов позвоночных из UCSC (включая 33 плацентарных млекопитающих)[3].

APPRIS (CNIO)

APRIS — ещё одна система, применяющая совокупность вычислительных методов для аннотации человеческого генома. В APRIS каждого гена выбирается один вариант кодирующей последовательности в качестве «главной изоформы» на основании информации о белковом продукте гена и об ортологах близких видов. APRIS использовался при масштабировании проекта ENCODE и при аннотации геномов других видов (Mus sp., Danio sp., Rattus sp.)[18].

Организация данных

Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков (референсная хромосома/патчи/скаффолды/гаплотипы). Данные аннотации соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, свойства поли(A)-фрагмента, аннотированные группой HAVANA, псевдогены, предсказанные алгоритмами Йельского университета и университета Санта Круз (США), но не HAVANA, длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan. В качестве примера аннотации ниже приведен фрагмент файла в формате GTF:

Пример файла в формате GTF с 9 колонками, разделенными табуляцией.

Описание колонок в файлах данного формата приведено в таблице ниже.

Номер колонки Содержание Значение/формат
1 номер хромосомы chr{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,M}
2 источник аннотации {ENSEMBL,HAVANA}
3 тип объекта {ген, транскрипт, экзон,CDS,UTR,старт-кодон, стоп-кодон,Селеноцистеин}
4 начало в координатах генома целочисленное значение (начиная с 1)
5 конец в координатах генома целочисленное значение
6 балл (не использовано) .
7 цепь генома {+,-}
8 геномная фаза (для белок-кодирующих фрагментов) {0,1,2,.}
9 дополнительная информация в формате словаря (ключ: значение) Объяснение в таблице ниже

Описание пар ключ-значение из девятой колонки GTF-файла GENCODE.

Имя ключа Формат значения
gene_id ENSGXXXXXXXXXXX
transcript_id ENSTXXXXXXXXXXX
gene_type list of biotypes
gene_status {KNOWN,NOVEL,PUTATIVE}
gene_name строка
transcript_type список типов
transcript_status {KNOWN,NOVEL,PUTATIVE}
transcript_name сирока
exon_number отражает биологическую позицию экзона в транскрипте
exon_id ENSEXXXXXXXXXXX
level
  1. (подтвержденный локус),
  2. (локус, аннотированный вручную),
  3. (автоматически аннотированный локус)

Определение уровня аннотации

Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации:

  • Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями.
  • Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[3].
  • Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[3].

Определение статуса гена/транскрипта

Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов.

Известный ("known"): представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq[3].

Новый ("novel"): не представленный в базах HGNC или RefSeq, но хорошо подтверждаемые либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе[3].

Предполагаемый ("putative"): не представленный в базах НGNC или RefSeq, но подтверждаемый признаками существования более короткого и редкого транскрипта[3].

Задачи

Определение понятия «ген»

Определение гена никогда не было тривиальной задачей и требовало учета многочисленных нюансов и идей, предложенных на протяжении всех лет с момента расшифровки человеческого генома. В 1900-х годах ген рассматривался как дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до геномного фрагмента, транскрибирующегося в РНК. И хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были открыты ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов некодирующих РНК. Поскольку GENCODE ставит глобальной целью создание энциклопедии генов и генных вариантов, эти проблемы ставят проект перед серьезной задачей нового определения понятия гена.

Файл:Pseudogene ontology.png
Онтология псевдогенов. "Inferred type" отражает классификацию псевдогена на основе пути его возникновения. "Evidence feature" содержит информацию, связанную с появлением гена, выходом его из рабочего состояния и дальнейшими мутациями. "Biological features" отражают дополнительные свойства, имеющие отношение к функции псевдогена (как подтвержденной, так и предсказанной).

Псевдогены

Псевдогены — это белок-кодирующие последовательности ДНК (или сходные с ними), в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ показал, что некоторые из псевдогенов не просто экспрессируются, но и функционируют, тем самым внося серьезный вклад в биологию человека. Для того, чтобы разобраться со всеми сложностями описания псевдогенов, GENCODE создал онтологию псевдогенов с использованием автоматических, мануальных и экспериментальных методов, чтобы связать различные свойства, такие как свойства последовательности, эволюция и возможная биологическая функция псевдогена[3].

В версии GENCODE 7 было аннотировано 11 580 псевдогенов, из которых 7183 локусам был присвоен уровень 1 (т. е. совпадение автоматической аннотации и аннотации HAVANA).

Связанные проекты

Проект «Геном человека»

Проект «Геном человека» (англ. The Human Genome Project, HGP) — международный научно-исследовательский проект, главной целью которого было определить последовательность нуклеотидов, которые составляют человеческую ДНК.

Проект начался в 1990 году под эгидой Национальной организации здравоохранения США. В 2000 году был выпущен рабочий черновик структуры генома, полный геном — в 2003 году, однако и сегодня дополнительный анализ некоторых участков ещё не закончен. Частной компанией Celera Corporation под руководствой Крейга Вентера был запущен аналогичный параллельный проект, завершённый на два года ранее международного [19] (см. Проект «Геном человека»). Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Канады и Великобритании. После релиза в 2003 году, научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний, и позже был запущен проект ENCODE, призванный справиться с этой задачей.

ENCODE

ENCODE (Энциклопедия элементов ДНК) — международный исследовательский консорциум, созданный в в сентябре 2003 года. Организован и финансируется американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI). Задуманный как продолжение проекта «Геном человека», ENCODE ставит целью проведение полного анализа функциональных элементов генома человека. Все результаты, получаемые в ходе реализации проекта, публикуются в общедоступных базах данных.

В пилотной фазе (2003—2007 годы) проект координировался группой Ensembl. Подпроект GENCODE был создан консорциумом для аннотации генных продуктов (транскриптов, кодирующих последовательностей и т. д.).

Подпроекты

Ensembl

Ensembl является важной частью проекта GENCODE. Этот проект предоставил возможности для автоматической и ручной аннотации с использованием референсного человеческого генома, а именно обеспечил аннотаторов последовательностями человеческих генов, ставшими основой всего проекта GENCODE[20].

Файл:LncRNA GENCODE.png
Число lncRNA, аннотированных в GENCODE 7, для каждой хромосомы человека[21].

Длинные некодирующие РНК (lncRNA)

Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA[21]. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent[22].

Датасет lncRNA, представленный в GENCODE (в частности, в версии GENCODE 7), считается самым большим из всех представленных датасетов lncRNA. При этом он мало перекрывается с другими существующими датасетами[21]. Транскрипты, аннотированные как lncRNA, далее могут быть классифицированы на следующие типы на основе их положения в геноме относительно белок-кодирующих генов:

  1. Антисмысловая РНК: локус, для которого был найден хотя бы один транскрипт, перекрывающийся с экзоном белок-кодирующего гена на противоположной цепи, или есть опубликованные данные об антисмысловой регуляции какого-либо гена;
  2. Длинная межгенная некодирующая РНК (lincRNA[23]);
  3. "Перекрывающийся": локус, содержащий белок-кодирующий ген внутри интрона на то же цепи;
  4. "Интронный": локус, расположенный внутри интрона, но не перекрывающийся с экзонами на той же цепи;
  5. Процессированный транскрипт: локус, для которого ни один транскрипт не содержит открытую рамку считывания, и который не может быть отнесен ни к одной из предыдущих категорий из-за сложной структуры.

RGASP

RGASP был организован в рамках консорциума GENCODE после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов, и было проведено уже две сессии семинаров для рассмотрения различных аспектов анализа секвенирования РНК, а также изменения технологий и форматов секвенирования. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном[24]. Проект предоставил софт для аннотации транскриптов (определение, реконструкция и расчет количества транскриптов).

Примечания

  1. Harrow J, Denoeud F, Frankish A, Reymond A, Chen C, et al. (2006). "GENCODE: producing a reference annotation for ENCODE". Genome Biology. 7 (Suppl1). doi:10.1186/gb-2006-7-s1-s4. PMC 1810553. PMID 16925838.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  2. 1 2 3 4 Jennifer Harrow, France Denoeud, Adam Frankish, Alexandre Reymond, Chao-Kung Chen. GENCODE: producing a reference annotation for ENCODE // Genome Biology. — 2006. — Т. 7 Suppl 1. — С. S4.1–9. — ISSN 1474-760X. — doi:10.1186/gb-2006-7-s1-s4.
  3. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans. GENCODE: the reference human genome annotation for The ENCODE Project // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1760–1774. — ISSN 1549-5469. — doi:10.1101/gr.135350.111.
  4. Adam Frankish, Jonathan M. Mudge, Mark Thomas, Jennifer Harrow. The importance of identifying alternative splicing in vertebrate genome annotation // Database: The Journal of Biological Databases and Curation. — 2012. — Т. 2012. — С. bas014. — ISSN 1758-0463. — doi:10.1093/database/bas014.
  5. Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali. The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1775–1789. — ISSN 1549-5469. — doi:10.1101/gr.132159.111.
  6. Baikang Pei, Cristina Sisu, Adam Frankish, Cédric Howald, Lukas Habegger. The GENCODE pseudogene resource // Genome Biology. — 2012-09-26. — Т. 13, вып. 9. — С. R51. — ISSN 1474-760X. — doi:10.1186/gb-2012-13-9-r51.
  7. 1 2 ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) Project // Science (New York, N.Y.). — 2004-10-22. — Т. 306, вып. 5696. — С. 636–640. — ISSN 1095-9203. — doi:10.1126/science.1105136.
  8. ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project // Nature. — 2007-06-14. — Т. 447, вып. 7146. — С. 799–816. — ISSN 1476-4687. — doi:10.1038/nature05874.
  9. gencode. GENCODE - GENCODE Release Files (брит. англ.). www.gencodegenes.org. Дата обращения: 12 апреля 2018.
  10. fsk (Felix2). GENCODE - Statistics (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.
  11. Jonathan M. Mudge, Jennifer Harrow. Creating reference gene annotation for the mouse C57BL6/J genome assembly (англ.) // Mammalian Genome. — 2015-10-01. — Vol. 26, iss. 9-10. — P. 366–378. — ISSN 1432-1777 0938-8990, 1432-1777. — doi:10.1007/s00335-015-9583-x.
  12. fsk (Felix). GENCODE - Goals (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.
  13. Genome Annotation (брит. англ.). aug2014.archive.ensembl.org. Дата обращения: 7 апреля 2018.
  14. Felix Kokocinski, Jennifer Harrow, Tim Hubbard. AnnoTrack--a tracking system for genome annotation // BMC genomics. — 2010-10-05. — Т. 11. — С. 538. — ISSN 1471-2164. — doi:10.1186/1471-2164-11-538.
  15. S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien. The GENCODE human gene set // Genome Biology. — 2010-10-11. — Т. 11, вып. 1. — С. P36. — ISSN 1474-760X. — doi:10.1186/gb-2010-11-s1-p36.
  16. James C. Wright, Jonathan Mudge, Hendrik Weisser, Mitra P. Barzine, Jose M. Gonzalez. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow (англ.) // Nature Communications. — 2016-06-02. — Т. 7. — ISSN 2041-1723. — doi:10.1038/ncomms11778.
  17. Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans. GENCODE: The reference human genome annotation for The ENCODE Project (англ.) // Genome Research. — 2012-09-01. — Vol. 22, iss. 9. — P. 1760–1774. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.135350.111.
  18. Jose Rodriguez, CNIO-INB. {APPRIS} - Annotating principal splice isoforms (англ.). appris.bioinfo.cnio.es. Дата обращения: 7 апреля 2018.
  19. Genetics Home Reference. What was the Human Genome Project and why has it been important? (англ.). Genetics Home Reference. Дата обращения: 12 апреля 2018.
  20. ENCODE data in Ensembl (брит. англ.). www.ensembl.org. Дата обращения: 7 апреля 2018.
  21. 1 2 3 Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali. The GENCODE v7 catalog of human long noncoding RNAs: Analysis of their gene structure, evolution, and expression (англ.) // Genome Research. — 2012-09-01. — Vol. 22, iss. 9. — P. 1775–1789. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.132159.111.
  22. et3 (Electra). GENCODE - lncRNA microarray (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.
  23. Igor Ulitsky, David P. Bartel. lincRNAs: Genomics, Evolution, and Mechanisms // Cell. — 2013-07-03. — Т. 154, вып. 1. — С. 26–46. — ISSN 0092-8674. — doi:10.1016/j.cell.2013.06.020.
  24. fsk (Felix). GENCODE - Benchmarking (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.

Ссылки