Энциклопедия элементов ДНК

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
ENCODE
Содержимое
Описание

Whole-genome database

Контакты
Исследовательский центр

University of California Santa Cruz

Лаборатория

Center for Biomolecular Science and Engineering

Авторы

Brian J Raney[1]

Оригинальная публикация

PMID 21037257

Дата выпуска

2010

Сайт

encodeproject.org

Энциклопедия элементов ДНК (англ. The Encyclopedia of DNA Elements, ENCODE) — международный исследовательский консорциум, организованный и финансируемый американским Национальным институтом исследований генома человека (англ. National Human Genome Research Institute, NHGRI) в сентябре 2003 года[2][3][4]. Цель его работы — произвести полный анализ функций элементов генома человека, это один из самых важных проектов NHGRI после успешного завершения проекта «Геном человека». Все данные, полученные в ходе реализации проекта, будут опубликованы в общедоступных базах данных.

5 сентября 2012 года первые результаты проекта были опубликованы в виде 30 взаимосвязанных публикаций на сайтах журналов «Nature», «Genome Biology» и «Genome Research»[5][6]. Эти публикации показывают, что по крайней мере 80 % генома человека является биологически активным, до этого господствовало представление, что большая часть ДНК является «мусорной». Однако такие поспешные выводы подвергаются критике со стороны многих учёных, которые указывают на отсутствие необходимых доказательств функциональности этих элементов[7].

Актуальность[править | править вики-текст]

Геном человека содержит примерно 20 000 белок-кодирующих генов (все вместе они составляют экзом), и на их долю приходится всего около 1,5% ДНК генома человека. Первостепенная задача проекта ENCODE – определить функцию остальной части генома, большая часть которой традиционно рассматривалась как «мусор»(например, ДНК, которая не транскрибируется).

Примерно 90% однонуклеотидных полиморфизмов в геноме человека (которые, как было показано с помощью полногеномного поиска ассоциаций, связаны с различными заболеваниями) найдено за пределами белок-кодирующих областей.[8]

Активность и экспрессия белок-кодирующих генов может регулироваться регуломом – различными элементами ДНК, такими как промотор, регуляторные последовательности и участки хроматина, а также модификации гистонов. Считается, что изменения в регуляторных областях могут нарушать экспрессию белка и клеточные процессы и приводить к болезни (ENCODE Project Background). Определяя расположение этих элементов и их влияние на транскрипцию, можно выяснить связь между изменением уровня экспрессии определенного гена и развитием заболевания. [9]

ENCODE задуман как всеобъемлющий ресурс, который позволит научному сообществу лучше понять, как геном может влиять на здоровье человека, и простимулирует развитие новых методов профилактики и лечения заболеваний. [10]

На сегодняшний день проект помогает в обнаружении новых регуляторных элементов ДНК, позволяя по-новому понять организацию и регуляцию наших генов и генома, а также того, как изменения в последовательности ДНК могут влиять на развитие заболеваний.[8] Один из главных результатов проекта – описание того, что для 80% человеческого генома на данный момент показана связь хотя бы с одной биохимической функцией.[11][12] Большинство этой некодирующей ДНК участвует в регуляции экспрессии кодирующих генов.[13] Кроме того, экспрессия каждого кодирующего гена контролируется множеством регуляторых участков, расположенных как вблизи, так и на расстоянии от гена. Эти результаты демонстрируют, что генная регуляция оказывается намного сложнее, чем считалась ранее.[14]

Проект ENCODE[править | править вики-текст]

Проект ENCODE реализуется в три этапа: начальная фаза, фаза развития технологии и продуктивная фаза.

В течение начальной фазы консорциум ENCODE оценивал стратегии для определения различных типов элементов генома. Цель начального этапа состояла в определении набора процедур, которые в совокупности позволили бы точно и наиболее подробно охарактеризовать большие регионы генома человека, с учетом экономической рентабельности и высокой эффективности процесса. Начальная фаза должна была выявить пробелы в наборе инструментов для определения функциональных последовательностей, а также показать, если какие-то из используемых методов окажутся неэффективными или непригодными для масштабного применения. Некоторые из этих проблем пришлось решать на этапе развития технологии ENCODE (проходящим одновременно с начальным этапом проекта), целью которого была разработка новых лабораторных и вычислительных методов, которые улучшили бы определение известных функциональных последовательностей или исследование новых функциональных элементов генома. Результат первых двух этапов на примере исследования 1% человеческого генома определил наилучший способ анализа оставшихся 99% с максимальной эффективностью и наименьшими затратами во время продуктивной фазы.[10]

I фаза проекта ENCODE: начальная фаза[править | править вики-текст]

Во время пилотной фазы проводилось исследование и сравнение существующих методов тщательного анализа определенного участка последовательности генома человека. Она была организована как открытый консорциум и объединила исследователей с различной базой и опытом, чтобы оценить достоинства каждой техники, технологии и стратегии из разнообразного набора. В то же время целью фазы развития технологии проекта была разработка новых высокоэффективных методов для определения функциональных элементов. Целью этой работы было определение набора подходов, который бы позволил наиболее точно определять все функциональные элементы в геноме человека. Во время начальной фазы была определена способность различных методов к масштабированию для анализа всего генома человека целиком и выявлены пробелы в определении функциональных элементов в последовательности генома.

Начальная фаза проекта происходила при тесном сотрудничестве экспериментаторов и теоретиков, которое позволило оценить ряд методов для аннотирования генома человека. Набор участков, составляющий примерно 1% (30 Mb) генома человека, был выбран в качестве мишени для начальной фазы проекта и анализировался всеми участниками пилотной фазы проекта. Все данные об этих регионах, полученные участниками ENCODE, были быстро выпущены в общедоступные базы данных.[15][16]

II фаза проекта ENCODE: продуктивная фаза[править | править вики-текст]

Изображение данных ENCODE в UCSC Genome Browser. Показаны несколько дорожек с информацией о регуляции экспрессии генов. Ген, расположенный слева (ATP2B4), экспрессируется во многих типах клеток. Ген, расположенный справа, экспрессируется только в нескольких типах клеток, в том числе, в эмбриональных стволовых клетках.

В сентябре 2007 года началось финансирование продуктивной фазы проекта ENCODE. На этом этапе целью был анализ генома целиком и проведение "дополнительных исследований в промышленных условиях.[17]

Как и в начальной фазе, работа продуктивной фазы была организована в виде открытого консорциума. В октябре 2007 года Национальный институт исследований генома человека выделил на нее гранты общей суммой более 80 млн. долларов на 4 года .[18] Во время продуктивной фазы в состав проекта вошли Центр Координирования Данных, Центр Анализа Данных и Центр Технологических Разработок.[19] В это время проект превращается в по-настоящему масштабное предприятие, включающее 440 ученых из 32 лабораторий по всему миру. В 2007 году, когда начальная стадия была закончена, проект нарастил мощности в значительной степени благодаря секвенированию нового поколения. Было обработано действительно много данных, исследователи получили около 15 терабайт сырой информации.

К 2010 году проектом ENCODE было получено более 1000 полногеномных наборов данных. Взятые вместе эти данные демонстрируют, какие участки транскрибируются, какие участки, по-видимому, контролируют экспрессию генов, используемых в клетках определенного типа, и какие участки взаимодействуют с большим набором белков. Основными биологическими испытаниями, используемыми в ENCODE являются ChIP-seq, поиск ДНКазаI-гиперчувствительных областей, RNA-seq и исследование метилирования ДНК.

Консорциум ENCODE[править | править вики-текст]

Консорциум ENCODE в основном состоит из ученых, которые спонсируются Национальным институтом исследований генома человека США. Другие участники проекта входят в Консорциум или Аналитическую рабочую группу.

Начальная фаза проекта состояла из восьми исследовательских групп и двенадцати групп, участвующих в фазе развития технологии проекта ENCODE (ENCODE Pilot Project: Participants and Projects). К концу 2007 года, когда пилотная фаза проекта официально завершилась, количество участников возросло до 440 ученых из 32 лабораторий, расположенных по всему миру. В настоящее время консорциум состоит из различных центров, которые выполняют различные задачи (ENCODE Participants and Projects):

  1. Производственные центры (ENCODE Production Centers)
  2. Центр координации данных (ENCODE Data Coordination Center)
  3. Центр анализа данных (ENCODE Data Analysis Center)
  4. Вычислительный анализ результатов (ENCODE Computational Analysis Awards)
  5. Технологическое развитие (ENCODE Technology Development Effort)

Критика[править | править вики-текст]

Несмотря на утверждения консорциума о том, что проект ENCODE далек от завершения, реакция на уже опубликованные статьи и освещение в прессе были положительными. Редакторы журнала Nature и авторы проекта ENCODE пишут: «... мы сотрудничали на протяжении многих месяцев, чтобы возникла эта крупнейшая новость, которая привлечет внимание не только ученого сообщества, но и широкой публики» («... collaborated over many months to make the biggest splash possible and capture the attention of not only the research community but also of the public at large»).[20] Заявление, выдвинутое в рамках проекта ENCODE, о том, что 80% геноме человека имеет биохимическую функцию[11] было быстро подхвачено научно-популярными изданиями, которые охарактеризовали результаты проекта как влекущие за собой смерть «мусорной» ДНК.[21][22]

Однако вывод о том, что основная часть генома «функциональна» было раскритиковано на тех основаниях, что проект ENCODE слишком широко определяет «функциональность», а именно: все, что транскрибируется в клетке, имеет свою функцию. Такое заключение было высказано, несмотря на общепринятую точку зрения, что множество элементов ДНК, которые транскрибируются, например, псевдогены, тем не менее, не являются функциональными. Более того, в проекте ENCODE сделан акцент в пользу чувствительности, а не специфичности, что ведет к множеству ложноположительных результатов.[23][24][25] В некоторой степени произвольный выбор клеточных линий и транскрипционных факторов, так же, как недостаток необходимых контрольных экспериментов, стали дополнительным поводом для серьезной критики в адрес ENCODE, поскольку случайная молекула ДНК может имитировать такое «функциональное» поведение в интерпретации ENCODE.[26]

В ответ на эту критику было высказано мнение, что транскрибирование большей части генома и сплайсинг, которые наблюдаются у человека, являются более точным индикатором генетической функции, чем консервативность последовательности. Кроме того, большая часть «мусорной» ДНК участвует в эпигенетической регуляции и была необходимой предпосылкой для развития сложных организмов.[27] В ответ на замечания насчет определения слова «функциональный» многие отметили, что в данном случае спор касается разницы в определении, а не сути проекта, которая заключается в предоставлении данных для последующих исследований биохимической активности не белок-кодирующих участков ДНК. Несмотря на то, что определения важны, и наука заключена в рамки языка, по-видимому, ENCODE добился своей цели, поскольку в настоящее время, в большом количестве научно-исследовательских статей используются данные, полученные проектом, а не обсуждаются определения «функциональности».[28] Эван Бирни (Ewan Birney), один из исследователей ENCODE прокомментировал некоторые реакции на проект. Он отмечает, что слово «функция» было использовано прагматично для обозначения «определенной биохимической активности», которая проявляется в различных классах экспериментов различным образом: наличие РНК, модификации гистонов, ДНКазаI-гиперчувствительные области, ChIP-seq-пики факторов транскрипции, футпринтинг ДНК, участки связывания транскрипционных факторов и экзоны.[29]

Кроме того проект критиковался за высокий бюджет (около 400 млн. долларов в общей сложности) и покровительство со стороны так называемой "большой науки", фундаментальных научных исследований, которые забирают деньги у более продуктивных научных разработок, которые приходится проводить за счет самих исследователей.[30] Стоимость начальной стадии проекта ENCODE оценивалась в 55 млн. долларов, его расширение стоило примерно 130 млн. долларов, и Национальный институт исследований генома человека США был готов выделить до 123 млн. для следующего этапа проекта. Некоторые исследователи утверждают, что должной отдачи от инвестиций до сих пор не последовало. При попытке подсчитать все публикации, в которых ENCODE играет значительную роль, с 2012 года было выявлено 300 таких статей, 110 из них основывались на результатах, полученных в лабораториях без финансового участия ENCODE. Дополнительной проблемой стало то, что ENCODE не является уникальным названием, относящимся только к проекту ENCODE, поэтому слово 'encode' (кодировать) всплывает в большом количестве литературы по генетике и исследованию генома.[8]

В качестве еще одного крупного замечания высказывается мнение, что результаты не оправдали количество потраченного времени, и что проект в принципе бесконечен по своей сути. Хотя он и сравнивается с проектом "Геном Человека" и даже назван его продолжением, "Геном Человека" имеет четкое окончание, которое в настоящее время отсутствует у ENCODE.

Авторы проекта по всей видимости разделяют беспокойство научного мира и не отрицают наличие проблем, но в то же время, пытаются оправдать свои усилия, объясняя в своих интервью подробности проекта не только научному сообществу, но и средствам массовой информации. Они говорят, что потребовалось более полу века, чтобы пройти от понимания того, что ДНК - это материальная основа наследственности для жизни, к последовательности генома человека, так что их план на следующий век - понять эту последовательность.[8]

modENCODE[править | править вики-текст]

По аналогии с проектом ENCODE был также начат проект картирования функциональных элементов генома основных модельных объектов — Drosophila melanogaster и Caenorhabditis elegans — англ. Model Organism ENCyclopedia Of DNA Elements (modENCODE). Преимущество данного проекта состоит в возможности проведения некоторых экспериментов, которые трудно или невозможно осуществить на человеке, на модельных организмах.[31]

Проект был основан в 2007 году Национальным институтом здравоохранения США (англ. National Institutes of Health (NIH).[32][33] В 2010 году modENCODE консорциум представил ряд статей в Science по аннотации и анализу распределения функциональных элементов в геноме Drosophila melanogaster и Caenorhabditis elegans. Данные из этих публикаций доступны на сайте modENCODE.[34]

В настоящий момент, modENCODE это исследовательское объединение, состоящее из 11 начальных проектов, разделенных между исследованием червя и мухи. Проект охватывает исследование следующих областей:

FactorBook[править | править вики-текст]

Данные анализы связывания транскрипционных факторов, полученных проектом ENCODE в настоящее время доступны в веб-хранилище FactorBook.[36] По сути дела, Factorbook.org – это база данных, созданная на вики-движке, которая содержит данные о связывании транскрипционных факторов, полученные консорциумом ENCODE. Первый выпуск FactoeBook содержит:

  • 457 наборов данных ChIP-seq для 119 транскрипционных факторов в некоторых культурах человеческих клеток
  • Профиль гистонных модификаций и позиционирования нуклеосом вокруг участков связывания транскрипционных факторов.[37]

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent, WJ (January 2011). «ENCODE whole-genome data in the UCSC genome browser (2011 update)». Nucleic Acids Res. 39 (Database issue): D871–5. DOI:10.1093/nar/gkq1017. PMID 21037257.
  2. Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent, WJ (January 2011). «ENCODE whole-genome data in the UCSC genome browser (2011 update)». Nucleic Acids Res. 39 (Database issue): D871–5. DOI:10.1093/nar/gkq1017. PMID 21037257.
  3. EGASP: the human ENCODE Genome Annotation Assessment Project. (англ.). PubMed.
  4. Клещенко Е. ДНК без мусора // The New Times. — 2012. — В. 29 (256).
  5. ENCODE project at UCSC. ENCODE Consortium. Проверено 5 сентября 2012. Архивировано из первоисточника 30 октября 2012.
  6. Walsh, Fergus. Detailed map of genome function (5 сентября 2012). Архивировано из первоисточника 6 сентября 2012. Проверено 6 сентября 2012.
  7. Dan Graur's blog.
  8. 1 2 3 4 Maher B (September 2012). «ENCODE: The human encyclopaedia». Nature 489 (7414): 46–8. DOI:10.1038/489046a. PMID 22962707.
  9. Saey, Tina Hesman Team releases sequel to the human genome. Society for Science & the Public (6 October 2012). Проверено 18 октября 2012.
  10. 1 2 The ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science (2004).
  11. 1 2 Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (September 2012). «An integrated encyclopedia of DNA elements in the human genome». Nature 489 (7414): 57–74. DOI:10.1038/nature11247. PMID 22955616. Bibcode2012Natur.489...57T.
  12. Timmer J. Most of what you read was wrong: how press releases rewrote scientific history. Staff / From the Minds of Ars. Ars Technica (10 сентября 2012). Проверено 10 сентября 2012.
  13. Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (September 2012). «An integrated encyclopedia of DNA elements in the human genome». Nature 489 (7414): 57–74. DOI:10.1038/nature11247. PMID 22955616. Bibcode2012Natur.489...57T.
  14. Pennisi E (September 2012). «Genomics. ENCODE project writes eulogy for junk DNA». Science 337 (6099): 1159, 1161. DOI:10.1126/science.337.6099.1159. PMID 22955811.
  15. Birney E., Stamatoyannopoulos J. A., Dutta A. et al. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. (англ.) // Nature. — 2007. — Vol. 447. — № 7146. — P. 799–816. — DOI:10.1038/nature05874 — PMID 17571346. исправить
  16. ENCODE Program Staff. ENCODE: Pilot Project: overview. National Human Genome Research Institute (18 октября 2012).
  17. Genome.gov | ENCODE and modENCODE Projects. The ENCODE Project: ENCyclopedia Of DNA Elements. United States National Human Genome Research Institute (1 августа 2011). Проверено 5 августа 2011.
  18. National Human Genome Research Institute - Organization. The NIH Almanac. United States National Institutes of Health. Проверено 5 августа 2011.
  19. Genome.gov | ENCODE Participants and Projects. The ENCODE Project: ENCyclopedia Of DNA Elements. United States National Human Genome Research Institute (1 августа 2011). Проверено 5 августа 2011.
  20. Maher B. Fighting about ENCODE and junk. News Blog. Nature Publishing Group (6 сентября 2012).
  21. Kolata G. Far From ‘Junk,’ DNA Dark Matter Proves Crucial to Health, The New York Times (5 сентября 2012).
  22. Gregory TR. The ENCODE media hype machine. Genomicron (6 сентября 2012).
  23. Graur D, Zheng Y, Price N, Azevedo RB, Zufall RA, Elhaik E (2013). «On the immortality of television sets: "function" in the human genome according to the evolution-free gospel of ENCODE». Genome Biol Evol 5 (3): 578–90. DOI:10.1093/gbe/evt028. PMID 23431001.
  24. Moran LA. Sandwalk: On the Meaning of the Word "Function". Sandwalk (15 марта 2013).
  25. Gregory TR. Critiques of ENCODE in peer-reviewed journals. « Genomicron. Genomicron (11 апреля 2013).
  26. White MA, Myers CA, Corbo JC, Cohen BA (July 2013). «Massively parallel in vivo enhancer assay reveals that highly local features determine the cis-regulatory function of ChIP-seq peaks». Proc. Natl. Acad. Sci. U.S.A. 110 (29): 11952–7. DOI:10.1073/pnas.1307449110. PMID 23818646. Lay summary – thefinchandpea.com.
  27. Mattick JS, Dinger ME (2013). «The extent of functionality in the human genome». The HUGO Journal 7 (1). DOI:10.1186/1877-6566-7-2.
  28. (March 14, 2013) «Form and function». Nature 495: 141-142. DOI:10.1038/495141b.
  29. ENCODE: My own thoughts (September 5, 2012).
  30. Timpson T. Debating ENCODE: Dan Graur, Michael Eisen. Mendelspod (5 марта 2013).
  31. The modENCODE Project: Model Organism ENCyclopedia Of DNA Elements (modENCODE). NHGRI website. Проверено 13 ноября 2008.
  32. modENCODE Participants and Projects. NHGRI website. Проверено 13 ноября 2008.
  33. Berkeley Lab Life Sciences Awarded NIH Grants for Fruit Fly, Nematode Studies. Lawrence Berkeley National Laboratory website (14 мая 2007). Проверено 13 ноября 2008.
  34. modENCODE. The National Human Genome Research Institute.
  35. Celniker S. Unlocking the secrets of the genome. Nature (11 июня 2009).
  36. FactorBook
  37. Wang J. Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium. Nucleic Acid Research (29 ноября 2012).

Ссылки[править | править вики-текст]