地球生物基因组项目:为生命的未来进行生命测序

2026-03-12

地球生物基因组项目:为生命的未来进行生命测序

为什么地球完整的基因组库必须保存在 Knowledge Ark 中

为 Knowledge Ark Initiative (arkive.su) 准备。2026 年 3 月。

引言:为什么要对地球上的所有生命进行测序?

2018 年,国际科学界启动了生物学历史上最雄心勃勃的项目之一:地球生物基因组项目 (Earth BioGenome Project, EBP) —— 一项旨在对地球上所有已描述的真核物种的基因组进行测序、编目和表征的倡议。这包括约 167 万种物种 —— 从显微藻类到蓝鲸,从土壤中的真菌到千年红杉。

如果说 2003 年完成的“人类基因组计划”破译了一个物种的遗传密码并耗资 60 亿美元,那么 EBP 的任务是为所有真核生命做到这一点。测序技术成本的迅速降低使得估计成本降至 39 亿美元,低于最初的预测。

EBP 不是一个单一的实验室,而是一个“网络之网络”:分布在 88 个国家的 2200 多名科学家通过 61 多个附属项目联合起来。协调工作由亚利桑那州立大学(秘书处)在世界最大的测序中心参与下管理。

对于 Knowledge Ark Initiative 而言,EBP 数据具有非凡的价值:它是地球生物圈的完整分子蓝图 —— 是进化在 40 亿年间发展出的组织方案目录。对于任何试图了解生命、生物工程或恢复失去的生态系统的未来文明来说,这些数据的丢失都将是不可弥补的损失。

规模与当前进展

该项目分为三个阶段:

  1. 试点阶段 (2018–2020) 制定了标准、道德框架和方法论。
  2. 第一阶段 (自 2021 年起) 目标是为大约 10,000 个真核生物分类科中的每一个获得参考基因组。
  3. 第二阶段 (持续到 2030 年) 涉及 300,000 个物种的取样和 150,000 个物种的测序,要求每月产出 3,000 个参考基因组 —— 与当前速度相比加快了 10 倍。

截至 2025 年初,EBP 附属项目已发布了 3,300 多个高质量基因组组装版本,涵盖 500 多个真核生物科。由 INSDC (International Nucleotide Sequence Database Collaboration) 提供的符合 EBP 最低标准(contig N50 >1 Mb, scaffold N50 >10 Mb, 超过 95% 的基因组在染色体超级支架中)的基因组已超过 3,400 个。其中 48% 是由 EBP 附属项目直接产出的 —— 这意味着该项目已经产生了世界上近一半的高质量真核生物基因组。

关键参与者和附属项目

最大的测序中心

  • Wellcome Sanger Institute(英国剑桥)—— 最大的单一参考基因组产出机构。通过“达尔文生命之树”(Darwin Tree of Life, DToL) 子项目,系统地对英国动植物进行测序;已突破 2,000 个基因组大关。生命之树项目负责人:Mark Blaxter。资源:darwintreeoflife.org
  • 华大基因 (BGI)(中国深圳)—— 全球第二大测序中心,业务覆盖全球。

区域和分类财团

  • 欧洲参考基因组图谱 (European Reference Genome Atlas, ERGA) —— EBP 的全欧合作伙伴,负责协调欧洲生物多样性参考基因组的产出。伞状 BioProject: PRJEB43510。资源:erga-biodiversity.eu
  • 脊椎动物基因组项目 (Vertebrate Genomes Project, VGP) —— 由 Erich Jarvis(洛克菲勒大学)领导的项目,旨在为所有脊椎动物物种建立参考基因组。资源:vertebrategenomesproject.org
  • 非洲生物基因组项目 (Africa BioGenome Project, AfricaBP) —— 一项测序非洲生物多样性的倡议,重点是培养非洲大陆的专业知识。到 2025 年,已举办 45 场研讨会,吸引了来自 75 个国家的 5,000 名参与者,并培训了 545 名非洲研究人员。
  • 加泰罗尼亚地球生物基因组计划 (CBP) —— 一个编目加泰罗尼亚生物多样性基因组的区域项目。BioProject: PRJEB49670。
  • i5k 倡议 —— 5,000 种节肢动物物种基因组测序。
  • B10K —— 对地球上所有鸟类物种进行基因组测序的项目。
  • EBP-Nor(挪威) —— 对挪威所有真核生物(包括北极物种)进行测序。资源:ebpnor.org

附属项目完整列表:earthbiogenome.org/affiliated-project-networks

项目领导层

Harris Lewin(亚利桑那州立大学) —— EBP 的架构师和创始人之一,秘书处负责人。Gene E. Robinson(伊利诺伊大学)和 W. John Kress(史密森尼学会) —— 项目的共同发起人。Beth Shapiro (UC Santa Cruz) 和 Federica DiPalma (Genome British Columbia) —— 第二阶段科学领导层的关键成员。

技术流程:从现场到数据库

样品采集

参考测序需要新鲜组织和完整的高分子量 DNA。标准流程:样品在液氮(−196°C)中野外冷冻或采集后尽快冷冻,并储存在 −80°C。每个样品分配一个 ToLID (Tree of Life Identifier) —— 确保从标本到基因组组装的全程跟踪。实物凭证标本存于博物馆。元数据包括:GPS 坐标、采集日期、栖息地、固定方法、采集者姓名。

测序

当前技术(2024–2025 年):Pacific Biosciences(CCS/HiFi,准确率 >99.9%,读长 10–20 kb)和 Oxford Nanopore Technologies(R10.4 化学技术,读长可达 1,000 kb)平台上的长读长测序。支架组装采用 Hi-C 方法。一个约 1 Gb 的参考基因组直接成本约为 5,000 美元;第二至第三阶段的目标成本为每种物种 800 美元。

组装与质量控制

EBP 参考组装标准:contig N50 >1 Mb, scaffold N50 >10 Mb, 超过 95% 的基因组在染色体超级支架中。完整性评估采用 BUSCO (>90% 的单拷贝直系同源基因),碱基准确度采用 Merqury。组装流程包括 verkkohifiasm

注释

注释是为基因组序列赋予生物学意义的过程:确定基因边界(外显子和内显子)、调节元件、重复序列、假基因。功能注释包括通过同源性确定基因功能并赋予标准术语 (Gene Ontology)。中央注释服务机构为 Ensembl (EMBL-EBI) 和 RefSeq (NCBI)。注释以 GFF3 格式提供,且必须完全开放(CC0 / 公共领域)。NCBI 还发布了 EGAPx —— 可供独立使用的开放式真核基因组注释流程 (github.com/ncbi/egapx)。

数据存储

所有 EBP 数据必须存储在 INSDC 的三个镜像数据库:GenBank (NCBI, 美国)、European Nucleotide Archive (ENA, EMBL-EBI)、DNA Data Bank of Japan (DDBJ)。原始读数存于 Sequence Read Archive (SRA)。组装库分配 GCA 编号。BioProject 结构:总项目 EBP (PRJNA533106) → 区域项目 (ERGA: PRJEB43510, DToL: PRJEB40665 等) → 国家/分类项目 → 具体物种。进度跟踪通过 Genomes on a Tree (GoaT) (goat.genomehubs.org) 进行。

开放数据:原则与意义

EBP 基于完全开放数据的原则。所有附属项目必须将基因组组装库及原始数据存入 INSDC,禁运期不超过一年。所有注释信息均属于 CC0 或公共领域,无使用限制。数据每天在三大洲的三大镜像中心同步。

GenBank 是最大的公共核苷酸序列数据库,到 2026 年 2 月已包含来自 581,000 个物种的 61.2 亿条记录。INSDC 自 1982 年起遵循自由开放原则,是世界上历史最悠久的开放科学基础设施之一。

EBP 还支持专利保护的原则性立场:反对为参考序列申请专利,认为其应属于公共财产。

为什么 EBP 数据对 Knowledge Ark 至关重要

Knowledge Ark Initiative (arkive.su) 是通过超耐用存储技术(陶瓷介质、石英晶体等)长期保存人类知识的项目。出于以下原因,EBP 基因组数据是长期存档中最有价值的信息类别之一:

信息的不可替代性

物种正在灭绝。据世界自然基金会 (WWF) 估计,自 1970 年以来,被监测的野生动物种群数量减少了 73%。到 2050 年,30%–50% 的动物物种可能会消失。在测序前失去的每一个物种,都是数十亿年进化信息的永久丧失。

数据的紧凑性与自足性

基因组数据非常适合长期保存。单个物种的参考基因组(A, T, G, C 四个字母序列)大小从几十兆字节到几千兆字节不等。压缩后,整个 EBP 目录(167 万种物种)可以存入几个拍字节 (PB)。FASTAGFF3 格式是简单的文本文件,任何掌握基础计算机科学的未来文明都能读取。

对后代的实用价值

完整的基因组库具有以下价值:

  • a) 合成生物学和脱灭绝 (de-extinction) 的基础;
  • b) 生物技术的蛋白质库(酶、抗生素);
  • c) AI 生物学模型的训练数据集 (protein language models, genomic foundation models);
  • d) 疾病诊断、育种和环境监测的参考。

存档建议

建议 Knowledge Ark 在以下层面保存 EBP 数据:1) 完整参考组装库 (FASTA,染色体级别);2) 注释信息 (GFF3);3) 元数据 (BioSample, BioProject);4) 描述项目方法和标准的关键科学论文。

生物材料的物理存储:全球冷冻库

除了数字数据外,保存物理材料(活细胞、组织、配子、种子)也至关重要。这是额外的保险:未来技术可以从活细胞中提取我们目前还无法读取的信息,甚至恢复物种。

  • Frozen Zoo®(圣地亚哥动物园野生动物联盟,美国)—— 世界上最大的野生动物活细胞冷冻库:拥有来自 2,200 多个体的 11,000 多个活细胞系。
  • Nature’s SAFE (Chester Zoo, 英国) —— 欧洲最大的活体生物库之一。
  • Millennium Seed Bank(英国丘园)—— 世界上最大的野生植物种子库,冷藏温度 −20°C。
  • Svalbard Global Seed Vault(斯瓦尔巴全球种子库,挪威)—— 位于永久冻土层中的后备仓库。

单个样本的冷冻成本为 42 至 1,500 美元(一次性),每年维护费 1–2 美元。核心漏洞是对电力和液氮供应的依赖,这使得在超耐用介质(陶瓷、石英)上进行数字备份具有战略意义。

基因组学与人工智能:协同潜力

完整的 EBP 基因组库为生物 AI 模型提供了前所未有的数据集。AlphaFold 证明了仅凭序列预测蛋白质结构是可能的。当 AI 输入数据从几千种物种增加到 150 万种以上时,将产生质的飞跃,类似于自然语言模型从 GPT-2 到 GPT-4 的进化。

关键科学论文

  • Lewin H. A. et al. (2018). «Earth BioGenome Project: Sequencing life for the future of life.» PNAS, 115(17).
  • Lewin H. A. et al. (2022). «The Earth BioGenome Project 2020: Starting the clock.» PNAS, 119(4).
  • Blaxter M. et al. (2025). «The Earth BioGenome Project Phase II.» Frontiers in Science, 3.

关键资源与数据库

结论

地球生物基因组项目是一项在物种消失前建立完整数字图书馆的尝试。对于 Knowledge Ark 而言,EBP 数据是最高级别的存档重点之一。

正如圣地亚哥 Frozen Zoo® 展台所言:“你必须为了你还不了解的原因而收集东西。” 我们现在收集,是因为了解在未来。而失去的将永远失去。


为 Knowledge Ark Initiative (arkive.su) 准备。2026 年 3 月。