Earth BioGenome Project: Secuenciando la vida para el futuro de la vida

¿Por qué la biblioteca genómica completa de la Tierra debe preservarse en el Knowledge Ark?

Preparado para la Iniciativa Knowledge Ark (arkive.su). Marzo de 2026.

Introducción: ¿Por qué secuenciar toda la vida en la Tierra?

En 2018, la comunidad científica internacional lanzó uno de los proyectos más ambiciosos en la historia de la biología: el Earth BioGenome Project (EBP), una iniciativa para secuenciar, catalogar y caracterizar los genomas de todas las especies eucariotas descritas en el planeta. Esto incluye aproximadamente 1,67 millones de especies, desde algas microscópicas hasta ballenas azules, desde hongos del suelo hasta secuoyas milenarias.

Si el Proyecto Genoma Humano, finalizado en 2003, descifró el código genético de una sola especie con un coste de 6.000 millones de dólares, el EBP pretende hacerlo para toda la vida eucariota. El coste estimado es de 3.900 millones de dólares, inferior a las previsiones iniciales gracias a la rápida reducción de los costes de la tecnología de secuenciación.

El EBP no es un solo laboratorio, sino una "red de redes": más de 2.200 científicos en 88 países, conectados a través de más de 61 proyectos afiliados. La coordinación se gestiona desde la Universidad Estatal de Arizona (secretaría) con la participación de los centros de secuenciación más grandes del mundo.

Para la Iniciativa Knowledge Ark, los datos del EBP representan un valor excepcional: es un plano molecular completo de la biosfera de la Tierra, un catálogo de soluciones organizativas desarrolladas por la evolución a lo largo de 4.000 millones de años. La pérdida de estos datos sería una pérdida irreparable para cualquier civilización futura que intente comprender la vida, la bioingeniería o restaurar ecosistemas perdidos.

Escala y progreso actual

El proyecto se organiza en tres fases:

Fase Piloto (2018–2020) estableció estándares, marcos éticos y metodologías.
Fase I (desde 2021) pretende obtener un genoma de referencia para cada una de las aproximadamente 10.000 familias taxonómicas de eucariotas.
Fase II (hasta 2030) implica el muestreo de 300.000 especies y la secuenciación de 150.000 de ellas, lo que requiere la producción de 3.000 genomas de referencia por mes, una aceleración diez veces mayor que las tasas actuales.

A principios de 2025, los proyectos afiliados al EBP han publicado más de 3.300 ensamblajes genómicos de alta calidad, cubriendo más de 500 familias eucariotas. Más de 3.400 genomas que cumplen los estándares mínimos del EBP (contig N50 >1 Mb, scaffold N50 >10 Mb, más del 95 % del genoma en superandamios cromosómicos) están disponibles en las bases de datos de la INSDC (International Nucleotide Sequence Database Collaboration). De ellos, el 48 % son producidos directamente por proyectos afiliados al EBP, lo que significa que el proyecto ya está generando casi la mitad de todos los genomas eucariotas de alta calidad del mundo.

Participantes clave y proyectos afiliados

Centros de secuenciación más grandes

Wellcome Sanger Institute (Cambridge, Reino Unido): el mayor productor individual de genomas de referencia. A través del subproyecto Darwin Tree of Life (DToL), secuencia sistemáticamente la fauna y flora británicas; se ha superado el hito de los 2.000 genomas. Director del programa Tree of Life: Mark Blaxter. Recurso: darwintreeoflife.org.
BGI (Shenzhen, China): el segundo centro de secuenciación más potente con alcance global.

Consorcios regionales y taxonómicos

European Reference Genome Atlas (ERGA): Socio paneuropeo del EBP, que coordina la producción de genomas de referencia para la biodiversidad europea. BioProyecto general: PRJEB43510. Recurso: erga-biodiversity.eu.
Vertebrate Genomes Project (VGP): Un proyecto liderado por Erich Jarvis (Universidad Rockefeller), destinado a genomas de referencia para todas las especies de vertebrados. Recurso: vertebrategenomesproject.org.
Africa BioGenome Project (AfricaBP): Una iniciativa para secuenciar la biodiversidad africana con un enfoque en el desarrollo de experiencia en el continente. Para 2025, se han realizado 45 talleres, participando 5.000 personas de 75 países y capacitando a 545 investigadores africanos.
Catalan Initiative for the Earth BioGenome Project (CBP): Un proyecto regional para catalogar genomas de la biodiversidad catalana. BioProyecto: PRJEB49670.
Iniciativa i5k: Secuenciación de genomas de 5.000 especies de artrópodos.
B10K: Proyecto para secuenciar genomas de todas las especies de aves en la Tierra.
EBP-Nor (Noruega): Secuenciación de todas las especies eucariotas de la fauna noruega, incluidas las especies árticas. Recurso: ebpnor.org.

Lista completa de proyectos afiliados: earthbiogenome.org/affiliated-project-networks.

Liderazgo del proyecto

Harris Lewin (Universidad Estatal de Arizona): uno de los arquitectos y fundadores del EBP, jefe de la secretaría. Gene E. Robinson (Universidad de Illinois) y W. John Kress (Smithsonian Institution): co-iniciadores del proyecto. Beth Shapiro (UC Santa Cruz) y Federica DiPalma (Genome British Columbia): miembros clave de la dirección científica de la Fase II.

Línea de producción técnica: del campo a la base de datos

Recolección de muestras

La secuenciación de referencia requiere tejido fresco con ADN de alto peso molecular intacto. Procedimiento estándar: una muestra se congela en nitrógeno líquido (−196 °C) en condiciones de campo o lo más rápido posible después de la recolección y se almacena a −80 °C. A cada muestra se le asigna un ToLID (Tree of Life Identifier), un identificador único que garantiza el seguimiento desde el espécimen hasta el ensamblaje genómico. Se deposita un espécimen físico de referencia en una colección de museo. Los metadatos incluyen: coordenadas GPS, fecha de recolección, hábitat, método de fijación, nombre del recolector.

Secuenciación

Tecnologías actuales (a partir de 2024-2025): secuenciación de lectura larga en las plataformas Pacific Biosciences (CCS/HiFi, precisión >99,9 %, longitud de lectura 10-20 kb) y Oxford Nanopore Technologies (precisión de moderada a alta en química R10.4, longitud de hasta 1000 kb). Para el andamiaje (ensamblaje de lecturas en estructuras cromosómicas), se utiliza Hi-C, un método de fijación de cromatina que permite determinar la posición relativa de los fragmentos del genoma. El coste de un genoma de referencia de ~1 Gb es de unos 5.000 dólares en costes directos; el coste objetivo para las Fases II-III es de 800 dólares por especie.

Ensamblaje y control de calidad

Estándares del EBP para el ensamblaje de referencia: contig N50 >1 Mb, scaffold N50 >10 Mb, más del 95 % del genoma en superandamios cromosómicos. La completitud se evalúa mediante BUSCO (>90 % de ortólogos de copia única), la precisión a nivel de base mediante Merqury. Las líneas de ensamblaje incluyen verkko e hifiasm (para datos HiFi + Hi-C).

Anotación

La anotación es el proceso de asignar significado biológico a la secuencia genómica: definir los límites de los genes (exones e intrones), elementos reguladores, repeticiones, pseudogenes. La anotación funcional implica determinar la función probable de cada gen mediante homología con genes conocidos y asignar términos estandarizados (Gene Ontology). Servicios centrales de anotación: Ensembl (EMBL-EBI) y RefSeq (NCBI). Las anotaciones se proporcionan en formato GFF3 y deben ser completamente abiertas (CC0 / dominio público). El NCBI también lanzó EGAPx, una línea de anotación de genoma eucariota abierta disponible para uso independiente (github.com/ncbi/egapx).

Depósito de datos

Todos los datos del EBP deben depositarse en la INSDC, un trío de bases de datos espejo: GenBank (NCBI, EE. UU.), European Nucleotide Archive (ENA, EMBL-EBI), DNA Data Bank of Japan (DDBJ). Lecturas crudas en el Sequence Read Archive (SRA). Ensamblajes con un acceso GCA asignado. Jerarquía de BioProyecto: EBP paraguas (PRJNA533106) → paraguas regionales (ERGA: PRJEB43510, DToL: PRJEB40665, etc.) → proyectos nacionales/taxonómicos → especies individuales. Coordinación y seguimiento del progreso a través de Genomes on a Tree (GoaT) (goat.genomehubs.org), un sistema de metadatos Elasticsearch para 1,5 millones de especies eucariotas.

Datos abiertos: principios y significado

El EBP se basa en el principio de apertura total de datos. Todos los proyectos afiliados deben depositar los ensamblajes genómicos junto con los datos brutos en la INSDC con un embargo no superior a un año. Toda la anotación es CC0 o dominio público, sin restricciones para su uso posterior. Los datos se replican diariamente entre tres espejos de la INSDC en tres continentes (América del Norte, Europa, Japón).

GenBank, la base de datos pública de secuencias de nucleótidos más grande, contenía 51,56 billones de pares de bases en 6,12 mil millones de registros para 581.000 especies en febrero de 2026. La INSDC funciona desde 1982 bajo los principios de acceso libre y sin restricciones, y es uno de los ejemplos más antiguos de infraestructura científica abierta en el mundo.

El EBP también adopta una postura de principios sobre las patentes: el proyecto se opone al patentamiento de secuencias de referencia, considerándolas de dominio público.

Por qué los datos del EBP son fundamentalmente importantes para el Knowledge Ark

Iniciativa Knowledge Ark (arkive.su): un proyecto para la preservación a largo plazo del conocimiento de la humanidad utilizando tecnologías de almacenamiento de datos ultraduraderas (soportes cerámicos, cristales de cuarzo, etc.). Los datos genómicos del EBP representan una de las clases de información más valiosas para el archivo a largo plazo por varias razones.

Irreemplazabilidad de la información

Las especies se están extinguiendo. Según estimaciones de WWF, desde 1970, las poblaciones de vida silvestre monitoreadas han disminuido en un 73 %. Para 2050, el 30-50 % de todas las especies animales pueden desaparecer. Cada especie perdida antes de la secuenciación es una pérdida irrevocable de información desarrollada a lo largo de miles de millones de años de evolución. Cada genoma contiene soluciones únicas para las tareas de adaptación: enzimas, vías metabólicas, esquemas regulatorios que no pueden restaurarse una vez perdidos.

Compactación y autosuficiencia de los datos

Los datos genómicos son perfectamente adecuados para el almacenamiento a largo plazo. Un genoma de referencia de una sola especie es una secuencia de cuatro letras (A, T, G, C) con un volumen de varias decenas de megabytes (para genomas pequeños) a varios gigabytes (para los grandes). En forma comprimida, todo el catálogo del EBP de 1,67 millones de especies podría caber en unos pocos petabytes. El formato de datos es simple y autodocumentado: FASTA para secuencias, GFF3 para anotaciones; estos son archivos de texto que cualquier civilización futura con una comprensión básica de la informática podría leer.

Valor práctico para las generaciones futuras

Una biblioteca genómica completa es:

a) la base para la biología sintética y la desextinción (restauración de especies perdidas);
b) un catálogo de soluciones proteicas para la biotecnología (enzimas, antibióticos, metabolitos);
c) un conjunto de datos de entrenamiento para modelos de IA en biología (modelos de lenguaje de proteínas, modelos fundacionales genómicos);
d) una referencia para el diagnóstico de enfermedades, cría, monitoreo ambiental.

Incluso si no se pueden predecir aplicaciones específicas, el valor de un catálogo completo de información biológica solo crecerá con el tiempo.

Recomendaciones de archivo

Para Knowledge Ark, se recomienda preservar los datos genómicos del EBP en varios niveles: 1) ensamblajes de referencia completos (FASTA, nivel cromosómico), la capa primaria; 2) anotaciones (GFF3), mapa de genes y funciones; 3) metadatos (BioSample, BioProyecto), vinculando a especies, ubicación y hora de recolección; 4) publicaciones científicas clave que describen la metodología y los estándares del proyecto.

Almacenamiento físico de biomateriales: Criobancos globales

Más allá de los datos digitales, la preservación de biomateriales físicos (células vivas, tejidos, gametos, semillas) juega un papel crítico. Este es un nivel adicional de seguro: la información que aún no sabemos leer se puede extraer de las células vivas, o un organismo vivo puede restaurarse con tecnologías futuras.

Frozen Zoo® (San Diego Zoo Wildlife Alliance, EE. UU.): el criobanco de células vivas de animales salvajes más grande del mundo, con más de 11.000 líneas celulares viables de más de 2.200 individuos. Fundado en 1972. En 2020, se clonó un potro de caballo de Przewalski, Kurt, a partir de células congeladas en 1980, lo que confirmó la viabilidad celular después de 40 años de almacenamiento.
Nature’s SAFE (Chester Zoo, Reino Unido): uno de los biobancos vivos más grandes de Europa, una asociación con zoológicos acreditados.
Millennium Seed Bank (Kew Gardens, Reino Unido): el banco de semillas de plantas silvestres más grande del mundo, almacenamiento a −20 °C.
Svalbard Global Seed Vault (Spitsbergen, Noruega): una bóveda de respaldo en el permafrost, principalmente para cultivos agrícolas.

El coste de criopreservación para una sola muestra oscila entre 42 y 1.500 dólares (una vez), y entre 1 y 2 dólares al año para su mantenimiento. Vulnerabilidad crítica: dependencia del suministro de energía y de suministros de nitrógeno líquido. Esto hace que la tarea de preservación de datos digitales en soportes ultraduraderos (cerámica, cuarzo) sea estratégicamente importante.

Genómica e inteligencia artificial: potencial sinérgico

La biblioteca genómica completa del EBP crea un conjunto de datos de entrenamiento sin precedentes para modelos de IA en biología. AlphaFold (DeepMind, Premio Nobel de Química 2024) demostró que la predicción de la estructura de las proteínas es posible a partir de secuencias solas. Cuando se introduzcan en tales modelos datos de más de 1,5 millones de especies en lugar de unas pocas miles, será un salto cualitativo comparable a la transición de GPT-2 a GPT-4 en los modelos de lenguaje.

Publicaciones científicas clave

Lewin H. A. et al. (2018). «Earth BioGenome Project: Sequencing life for the future of life.» PNAS, 115(17), 4325–4333.
Lewin H. A. et al. (2022). «The Earth BioGenome Project 2020: Starting the clock.» PNAS, 119(4).
Blaxter M. et al. (2025). «The Earth BioGenome Project Phase II: illuminating the eukaryotic tree of life.» Frontiers in Science, 3:1514835.

Recursos clave y bases de datos

Conclusión

El Earth BioGenome Project es un intento de crear una biblioteca digital completa de la vida eucariota en la Tierra antes de que se pierda una parte significativa de esta vida. Para el Knowledge Ark, los datos del EBP representan una de las mayores prioridades de archivo.

Como se dice en la exhibición del Frozen Zoo® en San Diego: “Debes recolectar cosas por razones que aún no comprendes”. Recolectamos porque la comprensión llega después. Pero lo que se pierde se pierde para siempre.

Preparado como parte de la Iniciativa Knowledge Ark (arkive.su). Marzo de 2026.