Earth BioGenome Project: Секвенирование жизни ради будущего жизни

2026-03-12

Earth BioGenome Project: Секвенирование жизни ради будущего жизни

Почему полная геномная библиотека Земли должна быть сохранена в Knowledge Ark

Подготовлено для Knowledge Ark Initiative (arkive.su). Март 2026.

Введение: зачем секвенировать всю жизнь на Земле

В 2018 году международное научное сообщество запустило один из самых амбициозных проектов в истории биологии: Earth BioGenome Project (EBP) — инициативу по секвенированию, каталогизации и характеризации геномов всех описанных эукариотических видов на планете. Это около 1,67 миллиона видов — от микроскопических водорослей до синих китов, от грибов в почве до тысячелетних секвой.

Если Human Genome Project, завершившийся в 2003 году, расшифровал генетический код одного вида и стоил $6 миллиардов, то EBP ставит задачу сделать это для всей эукариотической жизни. Оценочная стоимость — $3,9 миллиарда, что меньше первоначальных прогнозов благодаря стремительному удешевлению технологий секвенирования.

EBP — это не отдельная лаборатория, а сеть сетей: более 2 200 учёных в 88 странах, объединённых через более чем 61 аффилированный проект. Координация осуществляется из Arizona State University (секретариат) при участии крупнейших секвенирующих центров мира.

Для Knowledge Ark Initiative данные EBP представляют исключительную ценность: это полный молекулярный чертёж биосферы Земли — каталог организационных решений, выработанных эволюцией за 4 миллиарда лет. Потеря этих данных была бы невосполнимой утратой для любой будущей цивилизации, пытающейся понять жизнь, биоинженерию или восстановить утраченные экосистемы.

Масштаб и текущий прогресс

Проект организован в три фазы:

  1. Пилотная фаза (2018–2020) установила стандарты, этические рамки и методологии.
  2. Фаза I (с 2021 года) нацелена на получение референсного генома для каждого из приблизительно 10 000 таксономических семейств эукариот.
  3. Фаза II (через 2030 год) предполагает сбор образцов 300 000 видов и секвенирование 150 000 из них, что потребует производства 3 000 референсных геномов в месяц — десятикратного ускорения по сравнению с текущими темпами.

По состоянию на начало 2025 года, аффилированные проекты EBP выпустили более 3 300 высококачественных геномных сборок, покрывающих более 500 эукариотических семейств. В базах INSDC (International Nucleotide Sequence Database Collaboration) доступно свыше 3 400 геномов, отвечающих минимальным стандартам EBP (contig N50 >1 Mb, scaffold N50 >10 Mb, более 95% генома в хромосомных суперскаффолдах). Из них 48% произведены непосредственно аффилированными проектами EBP — то есть проект уже генерирует почти половину всех высококачественных эукариотических геномов в мире.

Ключевые участники и аффилированные проекты

Крупнейшие секвенирующие центры

  • Wellcome Sanger Institute (Кембридж, Великобритания) — крупнейший единичный производитель референсных геномов. Через подпроект Darwin Tree of Life (DToL) систематически секвенирует британскую фауну и флору; преодолена отметка в 2 000 геномов. Руководитель программы Tree of Life — Mark Blaxter. Ресурс: darwintreeoflife.org.
  • BGI (Шэньчжэнь, Китай) — второй по мощности секвенирующий центр с глобальным охватом.

Региональные и таксономические консорциумы

  • European Reference Genome Atlas (ERGA) — общеевропейский партнёр EBP, координирующий производство референсных геномов для европейского биоразнообразия. Зонтичный BioProject: PRJEB43510. Ресурс: erga-biodiversity.eu.
  • Vertebrate Genomes Project (VGP) — проект под руководством Erich Jarvis (Rockefeller University), нацеленный на референсные геномы всех видов позвоночных. Ресурс: vertebrategenomesproject.org.
  • Africa BioGenome Project (AfricaBP) — инициатива по секвенированию африканского биоразнообразия с фокусом на развитие компетенций на континенте. В 2025 году проведено 45 воркшопов, привлечено 5 000 участников из 75 стран и обучено 545 африканских исследователей.
  • Catalan Initiative for the Earth BioGenome Project (CBP) — региональный проект по каталогизации геномов каталонского биоразнообразия. BioProject: PRJEB49670.
  • i5k Initiative — секвенирование геномов 5 000 видов членистоногих.
  • B10K — проект по секвенированию геномов всех видов птиц на Земле.
  • EBP-Nor (Норвегия) — секвенирование всех эукариотических видов норвежской фауны, включая арктические виды. Ресурс: ebpnor.org.

Полный список аффилированных проектов: earthbiogenome.org/affiliated-project-networks.

Руководство проекта

Harris Lewin (Arizona State University) — один из архитекторов и основателей EBP, руководитель секретариата. Gene E. Robinson (University of Illinois) и W. John Kress (Smithsonian Institution) — соинициаторы проекта. Beth Shapiro (UC Santa Cruz) и Federica DiPalma (Genome British Columbia) — ключевые участники научного руководства Фазы II.

Технологический конвейер: от поля до базы данных

Сбор образцов

Для референсного секвенирования необходима свежая ткань с неповреждённой высокомолекулярной ДНК. Стандартная процедура: образец замораживается в жидком азоте (−196°C) в полевых условиях или максимально быстро после сбора и хранится при −80°C. Каждому образцу присваивается ToLID (Tree of Life Identifier) — уникальный идентификатор, обеспечивающий отслеживание от экземпляра до геномной сборки. Физический ваучерный экземпляр депонируется в музейную коллекцию. Метаданные включают: GPS-координаты, дату сбора, среду обитания, метод фиксации, имя коллектора.

Секвенирование

Текущие технологии (на 2024–2025 годы): длинноридовое секвенирование на платформах Pacific Biosciences (CCS/HiFi, точность >99.9%, длина ридов 10–20 kb) и Oxford Nanopore Technologies (умеренная до высокой точность на химии R10.4, длина до 1000 kb). Для скаффолдинга (сборки ридов в хромосомные структуры) используется Hi-C — метод фиксации хроматина, позволяющий определить взаимное расположение фрагментов генома. Стоимость референсного генома размером ~1 Gb — порядка $5 000 прямых затрат; целевая стоимость для фаз II–III — $800 за вид.

Сборка и контроль качества

Стандарты EBP для референсной сборки: contig N50 >1 Mb, scaffold N50 >10 Mb, >95% генома в хромосомных суперскаффолдах. Полнота оценивается с помощью BUSCO (>90% одинарных ортологов), точность на уровне оснований — с помощью Merqury. Сборочные конвейеры включают verkko и hifiasm (для HiFi + Hi-C данных).

Аннотация

Аннотация — процесс присвоения биологического значения геномной последовательности: определение границ генов (экзонов и интронов), регуляторных элементов, повторов, псевдогенов. Функциональная аннотация включает определение вероятной функции каждого гена через гомологию с известными генами и присвоение стандартизированных терминов (Gene Ontology). Центральные сервисы аннотации — Ensembl (EMBL-EBI) и RefSeq (NCBI). Аннотации предоставляются в формате GFF3 и должны быть полностью открытыми (CC0 / public domain). NCBI также выпустил EGAPx — открытый конвейер аннотации эукариотических геномов, доступный для самостоятельного использования (github.com/ncbi/egapx).

Депонирование данных

Все данные EBP обязательно депонируются в INSDC — тройку зеркальных баз: GenBank (NCBI, США), European Nucleotide Archive (ENA, EMBL-EBI), DNA Data Bank of Japan (DDBJ). Сырые риды — в Sequence Read Archive (SRA). Сборки — с присвоением GCA-аксешна. Иерархия BioProject: зонтичный EBP (PRJNA533106) → региональные зонтики (ERGA: PRJEB43510, DToL: PRJEB40665 и др.) → национальные/таксономические проекты → отдельные виды. Координация и отслеживание прогресса — через Genomes on a Tree (GoaT) (goat.genomehubs.org), Elasticsearch-систему метаданных по 1,5 миллиона эукариотических видов.

Открытые данные: принципы и значение

EBP построен на принципе полной открытости данных. Все аффилированные проекты обязаны депонировать геномные сборки вместе с сырыми данными в INSDC с эмбарго не более одного года. Вся аннотация — CC0 или public domain, без ограничений на дальнейшее использование. Данные ежедневно реплицируются между тремя зеркалами INSDC на трёх континентах (Северная Америка, Европа, Япония).

GenBank — крупнейшая публичная база нуклеотидных последовательностей — к февралю 2026 года содержал 51,56 триллиона пар оснований в 6,12 миллиарда записей по 581 000 видов. INSDC функционирует с 1982 года на принципах свободного и неограниченного доступа, и является одним из старейших примеров открытой научной инфраструктуры в мире.

EBP также занимает принципиальную позицию по патентованию: проект выступает против патентования референсных последовательностей, считая их общественным достоянием.

Почему данные EBP критически важны для Knowledge Ark

Knowledge Ark Initiative (arkive.su) — проект по долговременному сохранению знаний человечества с использованием технологий хранения данных сверхвысокой долговечности (керамические носители, кварцевые кристаллы, и др.). Геномные данные EBP представляют один из наиболее ценных классов информации для долговременного архивирования по нескольким причинам.

Невосполнимость информации

Виды вымирают. По оценкам WWF, с 1970 года мониторинговые популяции дикой природы сократились на 73%. К 2050 году может исчезнуть 30–50% всех видов животных. Каждый утраченный вид до секвенирования — это безвозвратная потеря информации, выработанной миллиардами лет эволюции. Каждый геном содержит уникальные решения задач адаптации: ферменты, метаболические пути, регуляторные схемы, которые не могут быть восстановлены после утраты.

Компактность и самодостаточность данных

Геномные данные идеально подходят для долговременного хранения. Референсный геном одного вида — это последовательность из четырёх букв (A, T, G, C) объёмом от нескольких десятков мегабайт (для малых геномов) до нескольких гигабайт (для крупных). В сжатом виде весь каталог EBP из 1,67 миллиона видов может уместиться в единицы петабайт. Формат данных прост и самодокументирован: FASTA для последовательностей, GFF3 для аннотаций — это текстовые файлы, которые может прочитать любая будущая цивилизация с базовым пониманием информатики.

Практическая ценность для будущих поколений

Полная геномная библиотека — это:

  • а) основа для синтетической биологии и де-экстинкции (восстановления утраченных видов);
  • б) каталог белковых решений для биотехнологии (ферменты, антибиотики, метаболиты);
  • в) тренировочный датасет для AI-моделей в биологии (protein language models, геномные foundation models);
  • г) референс для диагностики заболеваний, селекции, экологического мониторинга.

Рекомендации по архивированию

Для Knowledge Ark рекомендуется сохранение геномных данных EBP на нескольких уровнях: 1) полные референсные сборки (FASTA, хромосомный уровень) — основной слой; 2) аннотации (GFF3) — карта генов и функций; 3) метаданные (BioSample, BioProject) — привязка к виду, месту и времени сбора; 4) ключевые научные публикации, описывающие методологию и стандарты проекта.

Физическое хранение биоматериалов: мировые криобанки

Помимо цифровых данных, критическую роль играет сохранение физических биоматериалов — живых клеток, тканей, гамет, семян. Это дополнительный уровень страховки: из живых клеток можно извлечь информацию, которую мы ещё не умеем читать, или восстановить живой организм технологиями будущего.

  • Frozen Zoo® (San Diego Zoo Wildlife Alliance, США) — крупнейский криобанк живых клеток диких животных в мире: более 11 000 жизнеспособных клеточных линий от более чем 2 200 особей. Основан в 1972 году.
  • Nature’s SAFE (Chester Zoo, Великобритания) — один из крупнейших живых биобанков Европы, партнёрство с аккредитованными зоопарками.
  • Millennium Seed Bank (Kew Gardens, Великобритания) — крупнейший банк семян диких растений мира, хранение при −20°C.
  • Svalbard Global Seed Vault (Шпицберген, Норвегия) — дублирующее хранилище в вечной мерзлоте.

Стоимость криоконсервации одного образца — от $42 до $1 500 (разово), $1–2 в год на обслуживание. Критическая уязвимость — зависимость от электроснабжения и поставок жидкого азота. Именно это делает задачу цифрового сохранения данных на сверхдолговечных носителях (керамика, кварц) стратегически важной.

Геномика и искусственный интеллект: синергетический потенциал

Полная геномная библиотека EBP создаёт беспрецедентный тренировочный датасет для AI-моделей в биологии. AlphaFold (DeepMind, Нобелевская премия по химии 2024) продемонстрировал, что предсказание структуры белков возможно из одних последовательностей. Когда на вход AI-моделям пойдут данные по 1,5+ миллиона видов вместо нескольких тысяч — это будет качественный скачок, сопоставимый с переходом от GPT-2 к GPT-4.

Ключевые научные публикации

  • Lewin H. A. et al. (2018). «Earth BioGenome Project: Sequencing life for the future of life.» PNAS, 115(17), 4325–4333.
  • Lewin H. A. et al. (2022). «The Earth BioGenome Project 2020: Starting the clock.» PNAS, 119(4).
  • Blaxter M. et al. (2025). «The Earth BioGenome Project Phase II: illuminating the eukaryotic tree of life.» Frontiers in Science, 3:1514835.

Ключевые ресурсы и базы данных

Заключение

Earth BioGenome Project — это попытка создать полную цифровую библиотеку эукариотической жизни на Земле до того, как значительная часть этой жизни будет утрачена. Для Knowledge Ark данные EBP представляют один из высших приоритетов архивирования.

Как сказано на стенде Frozen Zoo® в Сан-Диего: «You must collect things for reasons you don’t yet understand.» Мы собираем, потому что понимание приходит позже. Но утраченное — утрачено навсегда.


Подготовлено в рамках Knowledge Ark Initiative (arkive.su). Март 2026.