解码基因组语言

2020-12-12 05:52:12

从几乎所有指标来看,这都是非凡的成就。人类基因组计划的完成为科学家研究“造人蓝图”提供了起点。制药公司突然拥有了遗传图谱,可以设计出更具针对性的药物。考古学家获得了比较各个年龄段人类基因组的路线图。生物学家获得了一个lodestar,以定位控制健康和行为的基因。基因组时代的闸门已正式开启。但是该项目也揭示了一个谜。

在1990年代,科学家估计人类基因组计划将揭开100,000个人类基因的面纱。但是测序结果揭示了一个严峻的现实:人类只有20,000个基因,比水蚤少了10,000个。令人惊讶的是,具有我们想象中的双足论和超大大脑的人类可能比微观甲壳类动物拥有更少的基因。

自人类基因组计划以来的二十年中,发生了许多变化。基因测序技术变得越来越便宜和快捷。第一个人类基因组序列耗资30亿美元,涉及数千名科学家,耗时13年才能完成。如今,测序仪可以在不到一天的时间内读取人类基因组,只需花费几百美元。但是技术并不是知识的替代品,科学家仍然还不完全了解基因组的工作原理。

我们的研究实验室位于加州理工学院生物科学广泛研究中心的后角,旨在了解基因组如何编码和表达信息。要在校园里找到我们,请寻找由金属和石灰华制成的立方体建筑,并欣赏圣加布里埃尔山脉的一览无余。在几个月前的一个晴朗的日子里,在大流行将我们限制在不整洁的公寓之前,我们可以看到山。我们办公室的威尔逊天文台。白色的望远镜点缀在山顶上,映衬着冉冉升起的太阳。在实验室内部,我们的工作台上到处都是装满液体的瓶子和金属移液管。

我们之所以研究基因组,部分原因是人类基因组计划(Human Genome Project)早在2003年就对我们的年轻人产生了影响。DNA的结构早在50年前就已经建立,这要归功于Rosalind Franklin,James Watson,弗朗西斯·克里克(Francis Crick)等。从结构到序列,我们对基因组的理解在这50年中走了很长一段路。但是我们知道还有更多的东西要学习。

自2003年以来,已对约50万个人类基因组进行了测序。测序机现在在大学中司空见惯。它们在桌子上嗡嗡作响,看上去就像是太空时代的计算机系统,带有触摸屏和微型气动管。从活细胞中提取DNA,使用称为PCR的技术制成数万亿个拷贝,然后将复制的分子装入(小心!)到机器中。数小时后,嗡嗡声消退后,屏幕上出现了一个由四个字母组成的无休止的字符串:A,T,C和G。

地球上所有的基因组都是由这些字母组成的,称为核苷酸。每个字母都是一个独特的分子-腺嘌呤,胸腺嘧啶,胞嘧啶和鸟嘌呤,它们相互连接,形成一个最小的字母。有了这四个字母,我们的细胞就可以构成单词,或者在生物学的背景下构成基因。

就像Xerox机器可以从一个文档中复制成千上万个副本一样,基因会通过称为转录的过程转换为信使RNA,然后转录为构建蛋白质的模板。人类基因组编码约20,000个基因,这些基因又产生抵御病毒入侵者,控制血糖水平以及介于两者之间的一切的蛋白质。

但是我们无法通过DNA序列“看到”这些动态变化。基因组中字母的顺序并不能告诉我们如何在细胞的分子范围内控制基因。基因表达是动态变化的。基因随着蛋白质的需要而开启和关闭,随着时间的推移,这些变化可能解释了基因组如何产生最美丽的生命形式。换句话说,尽管有20,000个基因,但它可以解释我们如何成为人类。

我们研究如何控制基因组,因为我们想了解自己。为此,我们建立在80多年的实验历史上。

在1940年代,雅克·莫诺(Jacques Monod)和弗朗索瓦·雅各布(FrançoisJacob)在巴黎内克尔附近的一个小实验室里疯狂地工作,他们发现细胞通过打开或关闭基因来控制蛋白质数量。尽管今天的结果似乎显而易见(最好的结果总是如此),但他们的工作却获得了1965年诺贝尔生理学或医学奖。

基因受称为转录因子的蛋白质调控,其中有两种类型:活化剂,与基因开始附近的DNA结合并增加基因产生的mRNA拷贝数量,就像在Xerox托盘中装入更多纸张一样,和阻遏物,减少了mRNA的复制量。转录因子在基因组中占主导地位,控制每个基因何时产生其Xerox拷贝。

雅各布和莫诺的发现为60年后的第一个人类基因组序列产生的问题提供了潜在的解决方案。也许一个生物体的复杂性不是由一个基因组中存在多少基因决定的,而是由这些基因组随着时间的过去如何受到转录因子的控制而决定的。为了在我们科学英雄的工作基础上,我们加州理工学院的实验室想要确定哪种类型的转录因子(激活子或阻遏子)调节每个基因。为了测试我们的实验,我们决定从一个小的基因组开始。我们转向了一种细菌,大肠杆菌。

在自然界中,大肠杆菌相对简单,包含4,000个基因和200个转录因子。但是,尽管它的大小很小,我们仍然不知道其三分之二的基因是如何调控的。

我们知道,如果我们想了解甚至一个小的细菌基因组如何受到调节,那么就需要一种新的实验方法。因此,我们创建了一个。

几年前,内森·贝利维(Nathan Belliveau)加入实验室时,他的目标很简单:找到一种简单的方法来确定大肠杆菌中的基因是如何调控的。

他坐在板凳上,从大肠杆菌中收获遗传物质,并将DNA装入测序仪。经过数年(数百次试验),他报告了一种根本方法的基础,该方法最终使我们的实验室能够弄清哪些转录因子一次调节数百或数千个基因。内森(Nathan)于2017年离开该团队,获得博士学位,然后飞往气候较冷的地方。 Bill Ireland和Suzy Beeler(本文的作者)接管了该项目。

他们也花了数年时间苦苦研究这种方法。在使用了成千上万的DNA管并将其板凳覆盖在遍布细菌的琼脂平板上摇摇欲坠之后,Bill和Suzy设法将Nathan的发现扩展到了一百多个基因。在此过程中,他们完善了一种功能强大的方法,从而深入了解了调控基因组的复杂分子机器。

我们首先从字面上邮寄订购DNA的短序列(即基因正前方的区域)的顺序,转录因子通常与DNA结合。计算机可以帮助我们设计每个DNA序列的突变版本,随机更改字母,直到每个序列有数千个变体为止。旧金山的一家公司取了我们的数字信件,创建了物理副本,然后将它们装在一个小的塑料管中运送到我们的实验室。然后,我们将这些合成的DNA片段放入大肠杆菌细胞中,并使用改良的DNA测序版本来确定每个“字母”变化是否会使一个基因产生更多或更少的Xerox拷贝。

如果DNA序列在细胞内产生的RNA很少,则表明字母变化(或突变)阻止了转录。它阻塞了施乐机器。这也表明激活剂可能与该DNA序列结合,并且该突变阻止了它的工作。但是,某些突变会增加从DNA序列产生的RNA的量,这表明该突变阻止了阻遏物的结合。

通过分析这些数据并通过数学模型运行它,我们可以确定每个基因是否受激活物或阻遏物调节,有多少转录因子调节每个基因,以及这些转录因子实际结合的位置。

在对一百多个基因进行了这项实验后,我们取得了一些惊人的发现。在一种情况下,我们发现了一种具有双重活性的转录因子:它激活一个基因的转录,同时抑制另一个基因的转录。我们还确定了仅在某些环境中有效的转录因子。例如,当大肠杆菌在糖的存在下生长时,称为GlpR的转录因子会抑制少数基因。没有糖,GlpR根本无法工作。

我们认为,这项研究标志着基因组研究的重大进展。但是它不是免费的。

在过去的五年中,我们屡屡失败。我们将试管贴错标签,并使用乙醇代替水来稀释DNA。我们将烧瓶掉了下来,把玻璃砸了,细菌也溅到了地板上。我们一次又一次地感到沮丧。但是,我们继续进行下去,对基因组的分子连接更加精通。将来,我们希望将这项工作扩展到其他生物。甚至人类。

从我们位于加州理工学院(Caltech)北端的实验室中,我们再也看不到富士山的灯光。威尔逊天文台。一个即将成为神经科学研究大楼的建筑工地掩盖了我们的观点。但是我们仍然考虑那些遥远的望远镜发出的闪烁光,像爱德温·哈勃和乔治·埃勒里·黑尔这样的天文学家记录了恒星,测量了光速并绘制了我们在宇宙中的位置。

在这里,我们在高山阴影下的实验室里,我们向下看是细胞,而不是向上看星星。我们从事的工作可能充满生命:解码基因组语言。有了时间和耐心,我们可能仍会理解只有四个字母的简单分子如何能够以无数种美丽,混乱的形式产生生物学。

爱尔兰WT,Beeler SM,Flores-Bautista E,McCarty NS,RöschingerT,Belliveau NM,Sweredoski MJ,Moradian A,Kinney JB和PhillipsR。 eLife(2020)。