GENCODE: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
исправление
исправление, уточнение, обновление, оформление
Строка 27: Строка 27:
'''GENCODE''' — научный проект геномных исследований, являющийся частью масштабного проекта [[ENCODE]] («Энциклопедия элементов ДНК»).
'''GENCODE''' — научный проект геномных исследований, являющийся частью масштабного проекта [[ENCODE]] («Энциклопедия элементов ДНК»).


Изначально консорциум GENCODE был создан в рамках пилотной фазы проекта [[ENCODE]] с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE (примерно 1 % генома человека)<ref name=":0">{{Статья|автор=Jennifer Harrow, France Denoeud, Adam Frankish, Alexandre Reymond, Chao-Kung Chen|заглавие=GENCODE: producing a reference annotation for ENCODE|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/16925838|издание=Genome Biology|год=2006|том=7 Suppl 1|страницы=S4.1–9|issn=1474-760X|doi=10.1186/gb-2006-7-s1-s4}}</ref>. Сейчас GENCODE нацелен на создание энциклопедии генов и их разнообразия с наиболее точным определением всех возможных характеристик генов в геномах человека и мыши с помощью совокупности методов вычислительного анализа, ручной аннотации, экспериментальной валидации и аннотации всех подтвержденных характеристик генов человеческого генома<ref>{{Статья|автор=Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans|заглавие=GENCODE: the reference human genome annotation for The ENCODE Project|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22955987|издание=Genome Research|год=September 2012|том=22|выпуск=9|страницы=1760–1774|issn=1549-5469|doi=10.1101/gr.135350.111}}</ref>.
Изначально консорциум GENCODE был создан в рамках пилотной фазы проекта [[ENCODE]] с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE (примерно 1% генома человека)<ref name=":0">{{Статья|автор=Jennifer Harrow, France Denoeud, Adam Frankish, Alexandre Reymond, Chao-Kung Chen|заглавие=GENCODE: producing a reference annotation for ENCODE|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/16925838|издание=Genome Biology|год=2006|том=7 Suppl 1|страницы=S4.1–9|issn=1474-760X|doi=10.1186/gb-2006-7-s1-s4}}</ref>. Сейчас GENCODE нацелен на создание энциклопедии генов и их разнообразия с наиболее точным определением всех возможных характеристик генов в геномах человека и мыши с помощью совокупности методов вычислительного анализа, ручной аннотации, экспериментальной валидации и аннотации всех подтвержденных характеристик генов человеческого генома<ref name=":2">{{Статья|автор=Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans|заглавие=GENCODE: the reference human genome annotation for The ENCODE Project|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22955987|издание=Genome Research|год=September 2012|том=22|выпуск=9|страницы=1760–1774|issn=1549-5469|doi=10.1101/gr.135350.111}}</ref>.


Результатом проекта будет база аннотаций, включающая все белок-кодирующие локусы с альтернативными сплайсоформами <ref>{{Статья|автор=Adam Frankish, Jonathan M. Mudge, Mark Thomas, Jennifer Harrow|заглавие=The importance of identifying alternative splicing in vertebrate genome annotation|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22434846|издание=Database: The Journal of Biological Databases and Curation|год=2012|том=2012|страницы=bas014|issn=1758-0463|doi=10.1093/database/bas014}}</ref>, некодирующие локусы, для которых были обнаружены транскрипты<ref>{{Статья|автор=Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali|заглавие=The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22955988|издание=Genome Research|год=September 2012|том=22|выпуск=9|страницы=1775–1789|issn=1549-5469|doi=10.1101/gr.132159.111}}</ref>, и [[псевдогены]] <ref>{{Статья|автор=Baikang Pei, Cristina Sisu, Adam Frankish, Cédric Howald, Lukas Habegger|заглавие=The GENCODE pseudogene resource|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22951037|издание=Genome Biology|год=2012-09-26|том=13|выпуск=9|страницы=R51|issn=1474-760X|doi=10.1186/gb-2012-13-9-r51}}</ref>.
Результатом проекта будет база аннотаций, включающая все белок-кодирующие локусы с [[Альтернативный сплайсинг|альтернативными сплайсоформами]] <ref>{{Статья|автор=Adam Frankish, Jonathan M. Mudge, Mark Thomas, Jennifer Harrow|заглавие=The importance of identifying alternative splicing in vertebrate genome annotation|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22434846|издание=Database: The Journal of Biological Databases and Curation|год=2012|том=2012|страницы=bas014|issn=1758-0463|doi=10.1093/database/bas014}}</ref>, некодирующие локусы, для которых были обнаружены транскрипты<ref>{{Статья|автор=Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali|заглавие=The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22955988|издание=Genome Research|год=September 2012|том=22|выпуск=9|страницы=1775–1789|issn=1549-5469|doi=10.1101/gr.132159.111}}</ref>, и [[псевдогены]] <ref>{{Статья|автор=Baikang Pei, Cristina Sisu, Adam Frankish, Cédric Howald, Lukas Habegger|заглавие=The GENCODE pseudogene resource|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22951037|издание=Genome Biology|год=2012-09-26|том=13|выпуск=9|страницы=R51|issn=1474-760X|doi=10.1186/gb-2012-13-9-r51}}</ref>.


== История ==
== История ==
Строка 40: Строка 40:
В июне 2007 года были опубликованы результаты пилотной фазы<ref>{{Статья|автор=ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó|заглавие=Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/17571346|издание=Nature|год=2007-06-14|том=447|выпуск=7146|страницы=799–816|issn=1476-4687|doi=10.1038/nature05874}}</ref>. Проект был признан удачным.
В июне 2007 года были опубликованы результаты пилотной фазы<ref>{{Статья|автор=ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó|заглавие=Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/17571346|издание=Nature|год=2007-06-14|том=447|выпуск=7146|страницы=799–816|issn=1476-4687|doi=10.1038/nature05874}}</ref>. Проект был признан удачным.


В октябре 2007 года [[Институт Сенгера|институт Сэнгера]] (Welcome Trust Sanger Institute) был удостоен гранта от Национального института исследований человеческого генома США (NHGRI) для масштабирования проекта GENCODE [10].
В октябре 2007 года [[Институт Сенгера|институт Сэнгера]] (Welcome Trust Sanger Institute) был удостоен гранта от Национального института исследований человеческого генома США (NHGRI) для масштабирования проекта GENCODE.


В сентябре 2012 года была опубликована статья с обсуждением результатов 7 (главного) релиза GENCODE (заморозка в декабре 2011 года). Этот релиз представлял собой комбинацию ручной аннотации и автоматической аннотации Ensembl. На момент релиза, 7 версия содержала наиболее полную аннотацию локусов длинных некодирующих РНК, доступную широкой публике[1].
В сентябре 2012 года была опубликована статья с обсуждением результатов 7 (главного) релиза GENCODE (заморозка в декабре 2011 года). Этот релиз представлял собой комбинацию ручной аннотации и автоматической аннотации [[Ensembl]]. На момент релиза эта версия содержала наиболее полную аннотацию локусов длинных некодирующих РНК, доступную широкой публике <ref name=":2" />.


С 2013 года GENCODE был удостоен второго гранта на продолжение работы и аннотацию мышиного генома[11], что позволит сравнительные исследования геномов мыши и человека.
С 2013 года GENCODE был удостоен второго гранта на продолжение работы и аннотацию мышиного генома, что позволит сравнительные исследования геномов мыши и человека.


== Основные участники ==
== Основные участники ==
Строка 59: Строка 59:
| [[Калифорнийский университет в Беркли|Калифорнийский Университет]], Беркли, США || Университет Санта Круз (UCSC), Калифорния, США || Университет Санта Круз (UCSC), Калифорния, США
| [[Калифорнийский университет в Беркли|Калифорнийский Университет]], Беркли, США || Университет Санта Круз (UCSC), Калифорния, США || Университет Санта Круз (UCSC), Калифорния, США
|-
|-
| Европейский Биоинформатический Институт, Хинкстон, Великобритания || [[Массачусетский технологический институт]] (MIT), Бостон США || Массачусетский технологический институт (MIT), Бостон США
| Европейский Биоинформатический Институт, Хинкстон, Великобритания || [[Массачусетский технологический институт]] (MIT), Бостон США || [[Массачусетский технологический институт]] (MIT), Бостон США
|-
|-
| || [[Йельский университет]], Нью-Хейвен, США || Йельский университет, Нью-Хейвен, США
| || [[Йельский университет]], Нью-Хейвен, США || [[Йельский университет]], Нью-Хейвен, США
|-
|-
| || Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания || Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания
| || Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания || Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания
Строка 128: Строка 128:
| style="font-weight: bold;" | Генные сегменты T-клеточного рецептора
| style="font-weight: bold;" | Генные сегменты T-клеточного рецептора
| style="text-align: right;" | 618
| style="text-align: right;" | 618
| style="font-weight: bold;" | Total No of distinct translations
| style="font-weight: bold;" |Общее число различных аннотаций
| style="text-align: right;" | 59,575
| style="text-align: right;" | 59,575
|-
|-
| - белок-кодирующие сегменты:
| - белок-кодирующие сегменты:
| style="text-align: right;" | 392
| style="text-align: right;" | 392
| style="font-weight: bold;" | Genes that have more than one distinct translations
| style="font-weight: bold;" | Число генов, имеющих более одной аннотации
| style="text-align: right;" | 13,579
| style="text-align: right;" | 13,579
|-
|-
Строка 142: Строка 142:
|}
|}


Полнота данных в аннотациях GENCODE непрерывно растёт.
Полнота данных в аннотациях GENCODE непрерывно растёт.
Сравнение основной статистики 3 главных релизов GENCODE приведено ниже[14]. Видно, что покрытие генома (количество открытых генов) стабильно увеличивается, в то время как количество белок-кодирующих генов уменьшилось, в основном из-за результатов аннотирования polyA сайтов и Кэп-анализа экспрессии генов (CAGE)[1].


Сравнение основной статистики 3 главных релизов GENCODE приведено ниже [14]. Видно, что покрытие генома (количество обнаруженных генов) стабильно увеличивается, в то время как количество белок-кодирующих генов уменьшается - в основном, из-за результатов аннотирования поли(A)-сайтов и Кэп-анализа экспрессии генов (CAGE) <ref name=":2" />.
Версия 7 (заморозка в декабре 2010, GRCh37) — Ensembl 62

Версия 10 (заморозка в июле 2011, GRCh37) — Ensembl 65
Версия 20 (заморозка в апреле 2014, GRCh38) — Ensembl 76
* Версия 7 (заморозка в декабре 2010, GRCh37) — Ensembl 62

* Версия 10 (заморозка в июле 2011, GRCh37) — Ensembl 65

* Версия 20 (заморозка в апреле 2014, GRCh38) — Ensembl 76


== Методология ==
== Методология ==
[[Файл:GENCODEpipeline.jpg|мини|393x393пкс|Схема алгоритма GENCODE. На ней показан поток данных между автоматической и ручной аннотацией посредством специальных алгоритмов предсказания, которые давали бы подсказки для первичной аннотации и контроля качества. Затем аннотация генов должна быть подтверждена экспериментально, и система AnnoTrack собирает данные из всех указанных источников для выявления несоответствий между ними, оценки качества и формирования итоговой аннотации. В ходе аннотации также формируется датасет GENCODE и происходит проверка качества итоговой аннотации.<ref>{{Статья|заглавие=GENCODE|ссылка=https://en.wikipedia.org/w/index.php?title=GENCODE&oldid=798153587|язык=en|издание=Wikipedia|год=2017-08-31}}</ref>]]
[[Файл:GENCODEpipeline.jpg|мини|393x393пкс|Схема алгоритма GENCODE. На ней показан поток данных между автоматической и ручной аннотацией посредством специальных алгоритмов предсказания, которые давали бы подсказки для первичной аннотации и контроля качества. Затем аннотация генов должна быть подтверждена экспериментально, и система AnnoTrack собирает данные из всех указанных источников для выявления несоответствий между ними, оценки качества и формирования итоговой аннотации. В ходе аннотации также формируется датасет GENCODE и происходит проверка качества итоговой аннотации.<ref>{{Статья|заглавие=GENCODE|ссылка=https://en.wikipedia.org/w/index.php?title=GENCODE&oldid=798153587|язык=en|издание=Wikipedia|год=2017-08-31}}</ref>]]
Основные способы аннотации GENCODE включают в себя ручную аннотацию, вычислительный анализ и экспериментальный подход.
Основные способы аннотации GENCODE включают в себя ручную аннотацию, вычислительный анализ и экспериментальный подход.

Верификация происходит по результатам лабораторных экспериментов и анализируется вручную[6]. Для валидации результатов сравниваются аннотации, полученные разными способами.
Верификация происходит по результатам лабораторных экспериментов и анализируется вручную <ref>{{Cite web|url=https://www.gencodegenes.org/gencode_goals.html|title=GENCODE - Goals|author=fsk (Felix)|publisher=www.gencodegenes.org|lang=en-GB|accessdate=2018-04-07}}</ref>. Для валидации результатов сравниваются аннотации, полученные разными способами.


=== Автоматическая аннотация (ENSEMBL) ===
=== Автоматическая аннотация (ENSEMBL) ===
В терминах Ensembl, транскрипты — это продукты автоматической аннотации генов. При автоматической аннотации используется экспериментальная информация о последовательностях белков и мРНК из публичных баз данных[16]. Также возможна автоматическая аннотация нетранслируемых участков, длинных межгенных некодирующих РНК (на основании данных о последовательностях кДНК и данных из проекта Ensembl), и коротких межгенных некодирующих РНК[1].
В терминах [[Ensembl]], транскрипты — это продукты автоматической аннотации генов. При автоматической аннотации используется экспериментальная информация о последовательностях белков и мРНК из публичных баз данных <ref>{{Cite web|url=http://aug2014.archive.ensembl.org/info/genome/genebuild/genome_annotation.html|title=Genome Annotation|publisher=aug2014.archive.ensembl.org|lang=en-gb|accessdate=2018-04-07}}</ref>. Также возможна автоматическая аннотация нетранслируемых участков, длинных некодирующих РНК (на основании данных о последовательностях кДНК и данных из проекта Ensembl) и коротких некодирующих РНК <ref name=":2" />.


=== Аннотация вручную (группа HAVANA) ===
=== Аннотация вручную (группа HAVANA) ===
В основном аннотируются транскрипты, выравниваемые на геном. В качестве контроля геномные последовательности используются чаще, чем последовательности кДНК. Итоговая последовательность анализируется с использованием программ Ensembl и выдачи программы BLAST, a также предсказания ab initio. Одним из преимуществ этого подхода является возможность комплексного анализа псевдогенов[1].
В основном аннотируются транскрипты, выравниваемые на геном. В качестве контроля геномные последовательности используются чаще, чем последовательности [[кДНК]]. Итоговая последовательность анализируется с использованием программ [[Ensembl]] и выдачи программы [[BLAST]], a также предсказания ''[[ab initio]]''. Одним из преимуществ этого подхода является возможность комплексного анализа псевдогенов <ref name=":2" />.

В состав консорциума GENCODE входит несколько групп, проводящих анализ с помощью программ Ensembl и помогающих аннотаторам в идентификации потенциально пропущенных либо неверно аннотированных геномов, в том числе идентификации аллелей локуса и идентификации сайтов сплайсинга. Для обмена информацией между группами используется трекинговая система AnnoTrack[17]. В процессе могут использоваться данные экспериментов RNASeq, CAGE и Ditag[15]. Однако, предсказания с использованием данных RNASeq сопряжено с некоторыми трудностями (см. GWASP).
В состав консорциума GENCODE входит несколько групп, проводящих анализ с помощью программ [[Ensembl]] и помогающих аннотаторам в идентификации потенциально пропущенных либо неверно аннотированных геномов, в том числе идентификации аллелей локуса и идентификации сайтов [[Сплайсинг|сплайсинга]]. Для обмена информацией между группами используется трекинговая система AnnoTrack <ref>{{Статья|автор=Felix Kokocinski, Jennifer Harrow, Tim Hubbard|заглавие=AnnoTrack--a tracking system for genome annotation|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/20923551|издание=BMC genomics|год=2010-10-05|том=11|страницы=538|issn=1471-2164|doi=10.1186/1471-2164-11-538}}</ref>. В процессе могут использоваться данные экспериментов [[Секвенирование РНК|RNASeq]], CAGE и Ditag <ref>{{Статья|автор=S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien|заглавие=The GENCODE human gene set|ссылка=https://doi.org/10.1186/gb-2010-11-s1-p36|издание=Genome Biology|год=2010-10-11|том=11|выпуск=1|страницы=P36|issn=1474-760X|doi=10.1186/gb-2010-11-s1-p36}}</ref>. Однако нужно заметить, что предсказание аннотаций с использованием данных RNASeq сопряжено с некоторыми трудностями (см. GWASP).


=== Объединение ручной и автоматической аннотаций ===
=== Объединение ручной и автоматической аннотаций ===
При объединении все модели транскриптов сравниваются по кластерам перекрывающихся экзонов, а затем по каждому экзону отдельно. Найденные расхождения в дальнейшем рассматриваются с использованием системы AnnoTrack[1].
При объединении все модели транскриптов сравниваются по кластерам перекрывающихся экзонов, а затем по каждому экзону отдельно. Найденные расхождения в дальнейшем рассматриваются с использованием системы AnnoTrack <ref name=":2" />.


=== Оценка качества ===
=== Оценка качества ===
Строка 170: Строка 175:
'''Амплификация, секвенирование, картирование и валидация результатов'''
'''Амплификация, секвенирование, картирование и валидация результатов'''


С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания библиотеки с помощью набора Illumina ‘‘Genomic DNA sample prep kit’’. Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) были картированы на референсный геном человека hg19 и предсказанные ампликоны с использованием программы Bowtie. Места соединения экзонов валидировались минимум 10 ридами, содержащими минимум 4-8 нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга[1]
С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания библиотеки с помощью набора Illumina ‘‘Genomic DNA sample prep kit’’. Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Места соединения экзонов валидировались минимум 10 ридами, содержащими минимум 4-8 нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга <ref name=":2" />.


'''Сравнение транскриптов RefSeq, UCSC, AceView и GENCODE'''
'''Сравнение транскриптов RefSeq, UCSC, AceView и GENCODE'''


Транскрипты из 4 наборов данных (GENCODE 7, RefSeq, релиз UCSC 2011 года, релиз AceView 2010 года) сравнивались между собой. Перекрывания в аннотации были представлены графически с использованием диаграммы Венна[1].(вставить рисунок?) — почему бы нет)
Транскрипты из 4 наборов данных (GENCODE 7, RefSeq, релиз UCSC 2011 года, релиз AceView 2010 года) сравнивались между собой. Перекрывания в аннотации были представлены графически с использованием диаграммы Венна <ref name=":2" />.


'''Анализ c помощью PhyloCSF'''
'''Анализ c помощью PhyloCSF'''


PhyloCSF использовался для поиска потенциальных кодирующих последовательностей в моделях транскриптов RNASeq на основании эволюционных сигнатур: для каждой модели транскриптов, полученной из данных Illumina, генерировалось выравнивание экзонов позвоночных из UCSC (включая 33 плацентарных млекопитающих)[1].
PhyloCSF использовался для поиска потенциальных кодирующих последовательностей в моделях транскриптов RNASeq на основании эволюционных сигнатур: для каждой модели транскриптов, полученной из данных Illumina, генерировалось выравнивание экзонов позвоночных из UCSC (включая 33 плацентарных млекопитающих)<ref name=":2" />.


'''APPRIS (CNIO)'''
'''APPRIS (CNIO)'''


APRIS — ещё одна система, применяющая совокупность вычислительных методов для аннотации человеческого генома. Для каждого гена также выбирается CDs в качестве «главной изоформы» путём анализа информации о белковом продукте гена и об ортологах близких видов. APRIS использовался при масштабировании проекта ENCODE, но также использовался и при аннотации других видов (mus sp., danio sp., ratus sp.,)[18].
APRIS — ещё одна система, применяющая совокупность вычислительных методов для аннотации человеческого генома. Для каждого гена также выбирается CDs в качестве «главной изоформы» путём анализа информации о белковом продукте гена и об ортологах близких видов. APRIS использовался при масштабировании проекта ENCODE, но также использовался и при аннотации других видов ([[Mus|Mus sp.]], [[Данио|Danio sp]]., [[Rattus|Rattus sp]].)<ref>{{Cite web|url=http://appris.bioinfo.cnio.es/#/|title={APPRIS} - Annotating principal splice isoforms|author=Jose Rodriguez, CNIO-INB|publisher=appris.bioinfo.cnio.es|lang=en|accessdate=2018-04-07}}</ref>.


== Организация данных ==
== Организация данных ==
Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков (референсная хромосома/патчи/скаффолды/гаплотипы). Данные аннотации соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, свойства PolyA-фрагмента, аннотированные группами HAVANA, псевдогены (в том числе и ретротранспозонные), предсказанные алгоритмами Йельского университета и университета Санта Круз (США), но не HAVANA, длинные некодирующие РНК, а также тРНК структуры, предсказанные tRNA-Scan. В качестве примера аннотации ниже приведен фрагмент файла в формате GTF:
Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах [[GFF (формат файла)|GTF]] и [[GFF (формат файла)|GFF3]]), [[FASTA]]-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков (референсная [[хромосома]]/патчи/скаффолды/[[Гаплотип|гаплотипы]]). Данные аннотации соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, свойства PolyA-фрагмента, аннотированные группами HAVANA, псевдогены (в том числе и ретротранспозонные), предсказанные алгоритмами [[Йельский университет|Йельского университета]] и университета Санта Круз (США), но не HAVANA, длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan. В качестве примера аннотации ниже приведен фрагмент файла в формате [[GFF (формат файла)|GTF]]:


Описание колонок в файлах данного формата приведено в таблице ниже.
Описание колонок в файлах данного формата приведено в таблице ниже.
Строка 266: Строка 271:
Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации:
Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации:


* '''Уровень 1 (подтвержденный локус):''' включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями.
'''Уровень 1 (подтвержденный локус):'''
включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями.


* '''Уровень 2 (аннотированный вручную локус):''' к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl<ref name=":2" />.
'''Уровень 2 (аннотированный вручную локус):'''
к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[1].


'''Уровень 3 (автоматически аннотированный локус):'''
* '''Уровень 3 (автоматически аннотированный локус):''' отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl<ref name=":2" />.
отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[1].


=== Определение статуса гена/транскрипта ===
=== Определение статуса гена/транскрипта ===
Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов.
Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов.


'''Известный:''' представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq.[1]
'''Известный:''' представлен в базах данных [https://www.genenames.org/ HUGO Gene Nomenclature Committee] (HGNC) и [https://www.ncbi.nlm.nih.gov/refseq/ RefSeq]<ref name=":2" />.


'''Новый:''' не представленный в базах HGNC или RefSeq, но хорошо подтверждаемые либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе.[1]
'''Новый:''' не представленный в базах HGNC или RefSeq, но хорошо подтверждаемые либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе<ref name=":2" />.


'''Предполагаемый:''' не представленный в базах НGNC или RefSeq, но подтверждаемый признаками существования более короткого и редкого транскрипта.[1]
'''Предполагаемый:''' не представленный в базах НGNC или RefSeq, но подтверждаемый признаками существования более короткого и редкого транскрипта<ref name=":2" />.


=== Геномный браузер Biodalliance ===
=== Biodalliance Genome Browser (''нужен перевод'') ===
Помимо прочего, сайт GENOCODE содержит геномный браузер для человека и мыши, где пользователь может рассмотреть любой геномный участок, задав номер хромосомы и координаты начала и конца участка (например, 22:30,700,000..30,900,000), а также как ENS-id транскрипта версией или без), ENS id гена версией или без) и имя гена. Браузер поддерживается Biodalliance.
Сайт GENCODE содержал геномный браузер для человека и мыши, где пользователь может рассмотреть любой геномный участок, задав номер хромосомы и координаты начала и конца участка (например, 22:30,700,000..30,900,000), а также как ENS-идентификатор транскрипта, ENS-идентификатор и имя гена. В 2018 году геномный браузер был перенесен на отдельный сайт [http://www.biodalliance.org/ Biodalliance].


== Задачи ==
== Задачи ==


=== Определение понятия «ген» ===
=== Определение понятия «ген» ===
Определение гена никогда не было тривиальной задачей и требовало учета многочисленных нюансов и идей, предложенных на протяжении всех лет с момента расшифровки человеческого генома. В 1900-х годах ген рассматривался как дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до некоего генетического кода, который транскрибируется в РНК. И хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и GENCODE, как его составляющей, были открыты ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг (когда в геноме последовательность экзонов разделена интронами), межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов некодирующих РНК. Поскольку GENCODE ставит глобальной целью создание энциклопедии генов и генных вариантов, эти проблемы ставят проект перед серьезной задачей нового определения понятия гена.
Определение [[Ген|гена]] никогда не было тривиальной задачей и требовало учета многочисленных нюансов и идей, предложенных на протяжении всех лет с момента расшифровки человеческого генома. В 1900-х годах ген рассматривался как дискретная единица наследственности, затем ген стали считать основой для [[Биосинтез белка|биосинтеза белка]], а в последнее время это понятие расширили до некого генетического кода, который транскрибируется в РНК. И хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были открыты ещё более проблематичные аспекты определения — такие как [[альтернативный сплайсинг]], межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов некодирующих РНК. Поскольку GENCODE ставит глобальной целью создание энциклопедии генов и генных вариантов, эти проблемы ставят проект перед серьезной задачей нового определения понятия гена.


=== Псевдогены ===
=== Псевдогены ===
Псевдогены — это похожие на белок-кодирующие последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ ретротранспозонных псевдогенов показал, что некоторые из них не просто экспрессируются, но и функционируют, тем самым внося серьезный вклад в биологию человека. Для того, чтобы разобраться со всеми неоднозначностями и сложностями псевдогенов, GENCODE создал онтологию псевдогенов с использованием автоматических, мануальных и экспериментальных методов, чтобы связать различные свойства, такие как свойства последовательности, эволюция и возможная биологическая функция псевдогена[1].
[[Псевдогены]] — это похожие на белок-кодирующие последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ ретротранспозонных псевдогенов показал, что некоторые из них не просто экспрессируются, но и функционируют, тем самым внося серьезный вклад в биологию человека. Для того, чтобы разобраться со всеми сложностями описания псевдогенов, GENCODE создал онтологию псевдогенов с использованием автоматических, мануальных и экспериментальных методов, чтобы связать различные свойства, такие как свойства последовательности, эволюция и возможная биологическая функция псевдогена <ref name=":2" />.


== Связанные проекты ==
== Связанные проекты ==


=== ENCODE ===
=== ENCODE ===
[[ENCODE]] (Энциклопедия элементов ДНК) — международный исследовательский консорциум, созданный в в сентябре 2003 года. Организован и финансируется американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI). Задуманный как продолжение проекта «Геном человека», ENCODE ставит целью проведение полного анализа функциональных элементов генома человека. Все результаты, получаемые в ходе реализации проекта, публикуются в общедоступных базах данных.
[[ENCODE]] (Энциклопедия элементов ДНК) — международный исследовательский консорциум, созданный в в сентябре 2003 года. Организован и финансируется американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI). Задуманный как продолжение [[Проект «Геном человека»|проекта «Геном человека]]», ENCODE ставит целью проведение полного анализа функциональных элементов генома человека. Все результаты, получаемые в ходе реализации проекта, публикуются в общедоступных базах данных.

В пилотной фазе (2003—2007 годы) проект координировался группой Ensembl. Подпроект GENCODE был создан консорциумом для аннотации генных продуктов (транскриптов, кодирующих последовательностей, и т. д.). [ссыль на статью про енкод]
В пилотной фазе (2003—2007 годы) проект координировался группой [[Ensembl]]. Подпроект GENCODE был создан консорциумом для аннотации генных продуктов (транскриптов, кодирующих последовательностей, и т. д.).


=== Проект «Геном человека» ===
=== Проект «Геном человека» ===
[[Проект «Геном человека»]] (англ. The Human Genome Project, HGP) — международный научно-исследовательский проект, главной целью которого было определить последовательность нуклеотидов, которые составляют человеческую ДНК.
[[Проект «Геном человека»]] (англ. The Human Genome Project, HGP) — международный научно-исследовательский проект, главной целью которого было определить последовательность нуклеотидов, которые составляют человеческую ДНК.

Проект начался в 1990 году под эгидой Национальной организации здравоохранения США. В 2000 году был выпущен рабочий черновик структуры генома, полный геном — в 2003 году, однако и сегодня дополнительный анализ некоторых участков ещё не закончен. Частной компанией Celera Corporation был запущен аналогичный параллельный проект, завершённый несколько ранее международного. Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Канады и Великобритании. После релиза в 2003 году, научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний, и в сентябре 2003 года был запущен проект ENCODE, призванный справиться с этой задачей.
Проект начался в 1990 году под эгидой Национальной организации здравоохранения США. В 2000 году был выпущен рабочий черновик структуры генома, полный геном — в 2003 году, однако и сегодня дополнительный анализ некоторых участков ещё не закончен. Частной компанией Celera Corporation был запущен аналогичный параллельный проект, завершённый несколько ранее международного. Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Канады и Великобритании. После релиза в 2003 году, научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний, и в сентябре 2003 года был запущен проект ENCODE, призванный справиться с этой задачей.


Строка 308: Строка 312:


=== Ensembl ===
=== Ensembl ===
[[Ensembl]] является незаменимой частью проекта GENCODE, осуществляя автоматическую аннотацию по референсному человеческому геному и совмещая эту аннотацию с аннотацией группы HAVANA, осуществляемой вручную. Ensembl предоставил набор человеческих генов, ставший основой всего проекта GENCODE. [23]
[[Ensembl]] является незаменимой частью проекта GENCODE, осуществляя автоматическую аннотацию по референсному человеческому геному и совмещая эту аннотацию с аннотацией группы HAVANA, осуществляемой вручную. Ensembl предоставил набор человеческих генов, ставший основой всего проекта GENCODE <ref>{{Cite web|url=http://www.ensembl.org/info/website/tutorials/encode.html|title=ENCODE data in Ensembl|publisher=www.ensembl.org|lang=en-gb|accessdate=2018-04-07}}</ref>.


=== Создание микрочипов для определения экспрессии длинных некодирующих РНК (lncRNA) ===
=== Создание микрочипов для определения экспрессии длинных некодирующих РНК (lncRNA) ===
Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA.[24] Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent.[25]
Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения [[Длинные некодирующие РНК|длинных некодирующих РНК]] (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA <ref>{{Статья|автор=Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali|заглавие=The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22955988|издание=Genome Research|год=September 2012|том=22|выпуск=9|страницы=1775–1789|issn=1549-5469|doi=10.1101/gr.132159.111}}</ref>. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате [https://www.gencodegenes.org/lncrna_microarray.html Аgilent] <ref>{{Cite web|url=https://www.gencodegenes.org/lncrna_microarray.html|title=GENCODE - lncRNA microarray|author=et3 (Electra)|publisher=www.gencodegenes.org|lang=en-GB|accessdate=2018-04-07}}</ref>.


=== RGASP ===
=== RGASP ===
Проект по оценке аннотации полногеномного секвенирования РНК (The RNA-seq Genome Annotation Assessment Project, RGASP) был запущен для того, чтобы оценить эффективность различных вычислительных методов для высококачественного анализа данных по секвенированию РНК. Исходной целью RGASP было представить независимую оценку выравнивания данных RNA-seq, софт (ПО) для аннотации транскриптов (определение, реконструкция и расчет количества), а также определить осуществимость автоматизированной аннотации генома на основе последовательности транскриптомов.[26]
Проект по оценке аннотации полногеномного [[Секвенирование РНК|секвенирования РНК]] (The RNA-seq Genome Annotation Assessment Project, RGASP) был запущен для того, чтобы оценить эффективность различных вычислительных методов для высококачественного анализа данных по секвенированию РНК. Исходной целью RGASP было представить независимую оценку выравнивания данных RNA-seq, софт для аннотации транскриптов (определение, реконструкция и расчет количества), а также определить осуществимость автоматизированной аннотации генома на основе последовательности транскриптомов <ref name=":3">{{Cite web|url=https://www.gencodegenes.org/rgasp/|title=GENCODE - Benchmarking|author=fsk (Felix)|publisher=www.gencodegenes.org|lang=en-GB|accessdate=2018-04-07}}</ref>.
RGASP организован в рамках консорциума после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов, и было проведено уже две сессии семинаров для рассмотрения различных аспектов анализа РНК-seq, а также изменения технологий и форматов секвенирования. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном.[27]
RGASP был организован в рамках консорциума после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов, и было проведено уже две сессии семинаров для рассмотрения различных аспектов анализа секвенирования РНК, а также изменения технологий и форматов секвенирования. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном <ref name=":3" />.


== Примечания ==
== Примечания ==

Версия от 20:48, 7 апреля 2018

GENCODE
The logo of GENCODE project
Содержимое
Описание Энциклопедия генов и генных вариантов
Тип данных Аннотации генов человека и мыши
Контакты
Исследовательский центр Wellcome Trust Sanger Institute
Авторы Harrow J, et al [1]
Дата выпуска Сентябрь 2012
Доступность
Сайт GENCODE
Прочее
Лицензия Открытый доступ
Частота релизов Для человеческого генома — раз в три месяца
Для мышиного генома — раз в полгода
Версия GENCODE 28 (человеческий геном), M17 (мышиный геном)

GENCODE — научный проект геномных исследований, являющийся частью масштабного проекта ENCODE («Энциклопедия элементов ДНК»).

Изначально консорциум GENCODE был создан в рамках пилотной фазы проекта ENCODE с целью определить и картировать все белок-кодирующие гены из библиотеки ENCODE (примерно 1% генома человека)[2]. Сейчас GENCODE нацелен на создание энциклопедии генов и их разнообразия с наиболее точным определением всех возможных характеристик генов в геномах человека и мыши с помощью совокупности методов вычислительного анализа, ручной аннотации, экспериментальной валидации и аннотации всех подтвержденных характеристик генов человеческого генома[3].

Результатом проекта будет база аннотаций, включающая все белок-кодирующие локусы с альтернативными сплайсоформами [4], некодирующие локусы, для которых были обнаружены транскрипты[5], и псевдогены [6].

История

В сентябре 2003 года Национальный институт исследований генома человека (NHGRI) открыл публичный исследовательский консорциум, названный ENCODE (Энциклопедия элементов ДНК), для реализации проекта по определению всех функциональных элементов человеческого генома. Проект был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза[7]. В ходе пилотной фазы планировалось исследовать около 30 Mb генома человека. В процессе был создан консорциум GENCODE, предназначенный для картирования на этот фрагмент генома известных белок-кодирующих генов[2]. Впоследствии было объявлено, что результаты первой и второй фаз будут учтены при анализе остального человеческого генома[7].

29 апреля 2005 года произошло замораживание первого релиза с аннотацией 44 регионов человеческого генома[2]. Результаты были использованы в семинаре по оценке аннотации генома с помощью ENCODE (E-GASP)[2]. В этом релизе была представлена информация о 416 известных генах, 26 новых белок-кодирующих локусах, 82 транскрибирующихся локусах и 170 псевдогенах.

Второй релиз был выпущен 14 октября 2005 года и содержал обновления с учётом экспериментальных данных, полученных с использованием методов RACE и RT-PCR[2], и дополненного 4 новыми локусами, содержащими белок-кодирующие последовательности.

В июне 2007 года были опубликованы результаты пилотной фазы[8]. Проект был признан удачным.

В октябре 2007 года институт Сэнгера (Welcome Trust Sanger Institute) был удостоен гранта от Национального института исследований человеческого генома США (NHGRI) для масштабирования проекта GENCODE.

В сентябре 2012 года была опубликована статья с обсуждением результатов 7 (главного) релиза GENCODE (заморозка в декабре 2011 года). Этот релиз представлял собой комбинацию ручной аннотации и автоматической аннотации Ensembl. На момент релиза эта версия содержала наиболее полную аннотацию локусов длинных некодирующих РНК, доступную широкой публике [3].

С 2013 года GENCODE был удостоен второго гранта на продолжение работы и аннотацию мышиного генома, что позволит сравнительные исследования геномов мыши и человека.

Основные участники

Пилотная фаза Масштабирование проекта Вторая фаза (текущая)
Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания
Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония Центр Геномной Регуляции (CRG), Барселона, Каталония
Университет Женевы, Швейцария Университет Лозанны, Швейцария Университет Лозанны, Швейцария
Калифорнийский Университет, Беркли, США Университет Санта Круз (UCSC), Калифорния, США Университет Санта Круз (UCSC), Калифорния, США
Европейский Биоинформатический Институт, Хинкстон, Великобритания Массачусетский технологический институт (MIT), Бостон США Массачусетский технологический институт (MIT), Бостон США
Йельский университет, Нью-Хейвен, США Йельский университет, Нью-Хейвен, США
Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания Испанский Национальный Центр Раковых Исследований (CNIO), Мадрид, Испания
Университет Вашингтона (WashU), Сент-Луис, США

Основная статистика

Приведена статистика 20 релиза (Апрель 2017).

Категории Всего Категории Всего
Всего генов 58,688 Всего транскриптов 194,334
Белок-кодирующие гены 19,942 Белок-кодирующие транскрипты 79,460
Гены длинных некодирующих РНК 14,470 - кодирующие полный белок: 54,447
Гены коротких некодирующих РНК 9,519 - кодирующие фоагмент белка: 25,013
Псевдогены 14,363 Нонсенс-опосредованный распад транскриптов 13,229
- обработанные псевдогены: 10,736 Локусы транскриптов длинных некодирующих РНК 24,489
- необработанные псевдогены: 3,202
- унитарные псевдогены: 171
- полиморфные псевдогены: 26
- псевдогены: 2
Генные сегменты T-клеточного рецептора 618 Общее число различных аннотаций 59,575
- белок-кодирующие сегменты: 392 Число генов, имеющих более одной аннотации 13,579
- псевдогены: 226

Полнота данных в аннотациях GENCODE непрерывно растёт.

Сравнение основной статистики 3 главных релизов GENCODE приведено ниже [14]. Видно, что покрытие генома (количество обнаруженных генов) стабильно увеличивается, в то время как количество белок-кодирующих генов уменьшается - в основном, из-за результатов аннотирования поли(A)-сайтов и Кэп-анализа экспрессии генов (CAGE) [3].

  • Версия 7 (заморозка в декабре 2010, GRCh37) — Ensembl 62
  • Версия 10 (заморозка в июле 2011, GRCh37) — Ensembl 65
  • Версия 20 (заморозка в апреле 2014, GRCh38) — Ensembl 76

Методология

Файл:GENCODEpipeline.jpg
Схема алгоритма GENCODE. На ней показан поток данных между автоматической и ручной аннотацией посредством специальных алгоритмов предсказания, которые давали бы подсказки для первичной аннотации и контроля качества. Затем аннотация генов должна быть подтверждена экспериментально, и система AnnoTrack собирает данные из всех указанных источников для выявления несоответствий между ними, оценки качества и формирования итоговой аннотации. В ходе аннотации также формируется датасет GENCODE и происходит проверка качества итоговой аннотации.[9]

Основные способы аннотации GENCODE включают в себя ручную аннотацию, вычислительный анализ и экспериментальный подход.

Верификация происходит по результатам лабораторных экспериментов и анализируется вручную [10]. Для валидации результатов сравниваются аннотации, полученные разными способами.

Автоматическая аннотация (ENSEMBL)

В терминах Ensembl, транскрипты — это продукты автоматической аннотации генов. При автоматической аннотации используется экспериментальная информация о последовательностях белков и мРНК из публичных баз данных [11]. Также возможна автоматическая аннотация нетранслируемых участков, длинных некодирующих РНК (на основании данных о последовательностях кДНК и данных из проекта Ensembl) и коротких некодирующих РНК [3].

Аннотация вручную (группа HAVANA)

В основном аннотируются транскрипты, выравниваемые на геном. В качестве контроля геномные последовательности используются чаще, чем последовательности кДНК. Итоговая последовательность анализируется с использованием программ Ensembl и выдачи программы BLAST, a также предсказания ab initio. Одним из преимуществ этого подхода является возможность комплексного анализа псевдогенов [3].

В состав консорциума GENCODE входит несколько групп, проводящих анализ с помощью программ Ensembl и помогающих аннотаторам в идентификации потенциально пропущенных либо неверно аннотированных геномов, в том числе идентификации аллелей локуса и идентификации сайтов сплайсинга. Для обмена информацией между группами используется трекинговая система AnnoTrack [12]. В процессе могут использоваться данные экспериментов RNASeq, CAGE и Ditag [13]. Однако нужно заметить, что предсказание аннотаций с использованием данных RNASeq сопряжено с некоторыми трудностями (см. GWASP).

Объединение ручной и автоматической аннотаций

При объединении все модели транскриптов сравниваются по кластерам перекрывающихся экзонов, а затем по каждому экзону отдельно. Найденные расхождения в дальнейшем рассматриваются с использованием системы AnnoTrack [3].

Оценка качества

Моделям транскриптов приписывается высокий/низкий уровень поддержки на основе сравнения с выравниваниях РНК и кДНК, что является метрикой их качества.

Основные методы, используемые в GENCODE 7

Амплификация, секвенирование, картирование и валидация результатов

С помощью амплификации кДНК были сгенерированы двуцепочечные кДНК человеческих тканей (мозга, сердца, почки, яичка, печени, селезёнки, лёгкого и скелетной мышцы). Очищенная ДНК использовалась для создания библиотеки с помощью набора Illumina ‘‘Genomic DNA sample prep kit’’. Библиотека была отсеквенирована на платформе Illumina Genome Analyzer 2. Риды (по 35 или 75 нуклеотидов) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Места соединения экзонов валидировались минимум 10 ридами, содержащими минимум 4-8 нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга [3].

Сравнение транскриптов RefSeq, UCSC, AceView и GENCODE

Транскрипты из 4 наборов данных (GENCODE 7, RefSeq, релиз UCSC 2011 года, релиз AceView 2010 года) сравнивались между собой. Перекрывания в аннотации были представлены графически с использованием диаграммы Венна [3].

Анализ c помощью PhyloCSF

PhyloCSF использовался для поиска потенциальных кодирующих последовательностей в моделях транскриптов RNASeq на основании эволюционных сигнатур: для каждой модели транскриптов, полученной из данных Illumina, генерировалось выравнивание экзонов позвоночных из UCSC (включая 33 плацентарных млекопитающих)[3].

APPRIS (CNIO)

APRIS — ещё одна система, применяющая совокупность вычислительных методов для аннотации человеческого генома. Для каждого гена также выбирается CDs в качестве «главной изоформы» путём анализа информации о белковом продукте гена и об ортологах близких видов. APRIS использовался при масштабировании проекта ENCODE, но также использовался и при аннотации других видов (Mus sp., Danio sp., Rattus sp.)[14].

Организация данных

Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков (референсная хромосома/патчи/скаффолды/гаплотипы). Данные аннотации соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, свойства PolyA-фрагмента, аннотированные группами HAVANA, псевдогены (в том числе и ретротранспозонные), предсказанные алгоритмами Йельского университета и университета Санта Круз (США), но не HAVANA, длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan. В качестве примера аннотации ниже приведен фрагмент файла в формате GTF:

Описание колонок в файлах данного формата приведено в таблице ниже.

Номер колонки Содержание Значение/формат
1 номер хромосомы chr{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,M}
2 источник аннотации {ENSEMBL,HAVANA}
3 тип объекта {ген, транскрипт, экзон,CDS,UTR,старт-кодон, стоп-кодон,Селеноцистеин}
4 начало в координатах генома целочисленное значение (начиная с 1)
5 конец в координатах генома целочисленное значение
6 балл (не использовано) .
7 цепь генома {+,-}
8 геномная фаза (для белок-кодирующих фрагментов) {0,1,2,.}
9 дополнительная информация в формате словаря (ключ: значение) Объяснение в таблице ниже

Описание пар ключ-значение из девятой колонки GTF-файла GENCODE.

Имя ключа Формат значения
gene_id ENSGXXXXXXXXXXX
transcript_id ENSTXXXXXXXXXXX
gene_type list of biotypes
gene_status {KNOWN,NOVEL,PUTATIVE}
gene_name строка
transcript_type список типов
transcript_status {KNOWN,NOVEL,PUTATIVE}
transcript_name сирока
exon_number отражает биологическую позицию экзона в транскрипте
exon_id ENSEXXXXXXXXXXX
level
  1. (подтвержденный локус),
  2. (локус, аннотированный вручную),
  3. (автоматически аннотированный локус)

Определение уровня

Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации:

  • Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями.
  • Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[3].
  • Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[3].

Определение статуса гена/транскрипта

Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов.

Известный: представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq[3].

Новый: не представленный в базах HGNC или RefSeq, но хорошо подтверждаемые либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе[3].

Предполагаемый: не представленный в базах НGNC или RefSeq, но подтверждаемый признаками существования более короткого и редкого транскрипта[3].

Геномный браузер Biodalliance

Сайт GENCODE содержал геномный браузер для человека и мыши, где пользователь может рассмотреть любой геномный участок, задав номер хромосомы и координаты начала и конца участка (например, 22:30,700,000..30,900,000), а также как ENS-идентификатор транскрипта, ENS-идентификатор и имя гена. В 2018 году геномный браузер был перенесен на отдельный сайт Biodalliance.

Задачи

Определение понятия «ген»

Определение гена никогда не было тривиальной задачей и требовало учета многочисленных нюансов и идей, предложенных на протяжении всех лет с момента расшифровки человеческого генома. В 1900-х годах ген рассматривался как дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до некого генетического кода, который транскрибируется в РНК. И хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были открыты ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов некодирующих РНК. Поскольку GENCODE ставит глобальной целью создание энциклопедии генов и генных вариантов, эти проблемы ставят проект перед серьезной задачей нового определения понятия гена.

Псевдогены

Псевдогены — это похожие на белок-кодирующие последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ ретротранспозонных псевдогенов показал, что некоторые из них не просто экспрессируются, но и функционируют, тем самым внося серьезный вклад в биологию человека. Для того, чтобы разобраться со всеми сложностями описания псевдогенов, GENCODE создал онтологию псевдогенов с использованием автоматических, мануальных и экспериментальных методов, чтобы связать различные свойства, такие как свойства последовательности, эволюция и возможная биологическая функция псевдогена [3].

Связанные проекты

ENCODE

ENCODE (Энциклопедия элементов ДНК) — международный исследовательский консорциум, созданный в в сентябре 2003 года. Организован и финансируется американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI). Задуманный как продолжение проекта «Геном человека», ENCODE ставит целью проведение полного анализа функциональных элементов генома человека. Все результаты, получаемые в ходе реализации проекта, публикуются в общедоступных базах данных.

В пилотной фазе (2003—2007 годы) проект координировался группой Ensembl. Подпроект GENCODE был создан консорциумом для аннотации генных продуктов (транскриптов, кодирующих последовательностей, и т. д.).

Проект «Геном человека»

Проект «Геном человека» (англ. The Human Genome Project, HGP) — международный научно-исследовательский проект, главной целью которого было определить последовательность нуклеотидов, которые составляют человеческую ДНК.

Проект начался в 1990 году под эгидой Национальной организации здравоохранения США. В 2000 году был выпущен рабочий черновик структуры генома, полный геном — в 2003 году, однако и сегодня дополнительный анализ некоторых участков ещё не закончен. Частной компанией Celera Corporation был запущен аналогичный параллельный проект, завершённый несколько ранее международного. Основной объём секвенирования был выполнен в университетах и исследовательских центрах США, Канады и Великобритании. После релиза в 2003 году, научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний, и в сентябре 2003 года был запущен проект ENCODE, призванный справиться с этой задачей.

Подпроекты

Ensembl

Ensembl является незаменимой частью проекта GENCODE, осуществляя автоматическую аннотацию по референсному человеческому геному и совмещая эту аннотацию с аннотацией группы HAVANA, осуществляемой вручную. Ensembl предоставил набор человеческих генов, ставший основой всего проекта GENCODE [15].

Создание микрочипов для определения экспрессии длинных некодирующих РНК (lncRNA)

Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA [16]. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent [17].

RGASP

Проект по оценке аннотации полногеномного секвенирования РНК (The RNA-seq Genome Annotation Assessment Project, RGASP) был запущен для того, чтобы оценить эффективность различных вычислительных методов для высококачественного анализа данных по секвенированию РНК. Исходной целью RGASP было представить независимую оценку выравнивания данных RNA-seq, софт для аннотации транскриптов (определение, реконструкция и расчет количества), а также определить осуществимость автоматизированной аннотации генома на основе последовательности транскриптомов [18].

RGASP был организован в рамках консорциума после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов, и было проведено уже две сессии семинаров для рассмотрения различных аспектов анализа секвенирования РНК, а также изменения технологий и форматов секвенирования. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном [18].

Примечания

  1. Harrow J, Frankish A, Gonzalez JM, Tapanari E, Diekhans M, Kokocinski F, et al. (2012). "GENCODE: the reference human genome annotation for The ENCODE Project". Genome Res. 22 (9): 1760—74. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.
  2. 1 2 3 4 5 Jennifer Harrow, France Denoeud, Adam Frankish, Alexandre Reymond, Chao-Kung Chen. GENCODE: producing a reference annotation for ENCODE // Genome Biology. — 2006. — Т. 7 Suppl 1. — С. S4.1–9. — ISSN 1474-760X. — doi:10.1186/gb-2006-7-s1-s4.
  3. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans. GENCODE: the reference human genome annotation for The ENCODE Project // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1760–1774. — ISSN 1549-5469. — doi:10.1101/gr.135350.111.
  4. Adam Frankish, Jonathan M. Mudge, Mark Thomas, Jennifer Harrow. The importance of identifying alternative splicing in vertebrate genome annotation // Database: The Journal of Biological Databases and Curation. — 2012. — Т. 2012. — С. bas014. — ISSN 1758-0463. — doi:10.1093/database/bas014.
  5. Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali. The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1775–1789. — ISSN 1549-5469. — doi:10.1101/gr.132159.111.
  6. Baikang Pei, Cristina Sisu, Adam Frankish, Cédric Howald, Lukas Habegger. The GENCODE pseudogene resource // Genome Biology. — 2012-09-26. — Т. 13, вып. 9. — С. R51. — ISSN 1474-760X. — doi:10.1186/gb-2012-13-9-r51.
  7. 1 2 ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) Project // Science (New York, N.Y.). — 2004-10-22. — Т. 306, вып. 5696. — С. 636–640. — ISSN 1095-9203. — doi:10.1126/science.1105136.
  8. ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project // Nature. — 2007-06-14. — Т. 447, вып. 7146. — С. 799–816. — ISSN 1476-4687. — doi:10.1038/nature05874.
  9. GENCODE (англ.) // Wikipedia. — 2017-08-31.
  10. fsk (Felix). GENCODE - Goals (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.
  11. Genome Annotation (брит. англ.). aug2014.archive.ensembl.org. Дата обращения: 7 апреля 2018.
  12. Felix Kokocinski, Jennifer Harrow, Tim Hubbard. AnnoTrack--a tracking system for genome annotation // BMC genomics. — 2010-10-05. — Т. 11. — С. 538. — ISSN 1471-2164. — doi:10.1186/1471-2164-11-538.
  13. S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien. The GENCODE human gene set // Genome Biology. — 2010-10-11. — Т. 11, вып. 1. — С. P36. — ISSN 1474-760X. — doi:10.1186/gb-2010-11-s1-p36.
  14. Jose Rodriguez, CNIO-INB. {APPRIS} - Annotating principal splice isoforms (англ.). appris.bioinfo.cnio.es. Дата обращения: 7 апреля 2018.
  15. ENCODE data in Ensembl (брит. англ.). www.ensembl.org. Дата обращения: 7 апреля 2018.
  16. Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali. The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression // Genome Research. — September 2012. — Т. 22, вып. 9. — С. 1775–1789. — ISSN 1549-5469. — doi:10.1101/gr.132159.111.
  17. et3 (Electra). GENCODE - lncRNA microarray (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.
  18. 1 2 fsk (Felix). GENCODE - Benchmarking (брит. англ.). www.gencodegenes.org. Дата обращения: 7 апреля 2018.

Ссылки