冠状病毒基因组机械师指南

2020-08-18 10:29:00

(希望有人能尽快推出疫苗速跑。这场老板之争真的会是一场激烈的战斗,我们需要我们能得到的所有文物。)。

在这里,我的目的是为SARS-CoV-2基因组的语法和语义提供一个机械性的解释。让我们来研究一下SARS-CoV-2病毒基因组的实际作用,就像是像编译器一样阅读代码,从核苷酸到氨基酸再到蛋白质。从四个碱基对一直到完整的蛋白涂层病毒,在具体的物理层面上,像这样的病毒实际上是由什么组成的?

这篇文章的根本目的不是关于冠状病毒本身,而是更多地关于拥有一小段但功能完整的病毒RNA如何给我一个独特的机会,让我试图从头开始理解一台完整的自我复制机器。这不是一个壮举,例如,我没有勇气用完整的人类基因组手动复制-但冠状病毒基因组,就像线虫基因组一样,足够小,我们有机会建立一个完整的理解。这项任务可能类似于可解释性,但对于生物系统来说,而不是人工神经网络。

因此,这篇文章并不是要得出流行病学结论;还有很多其他来源可以证明这一点!这篇文章是关于从化学和物理层面全面理解生物系统。

在整篇文章中,我按照严肃游戏的风格追随着我的好奇心:如果我注意到我对某事感到困惑,我会研究并探索它,直到我满意地认为我现在明白了,而且我的理解是一种机械的理解。东西都是用东西做的!原来我们可以理解那些东西!

在我自己的研究过程中,我可能会跳过一些不会让我感到困惑的细节,但你的旅程不一定和我的一样。如果你在读这篇文章的时候有什么不明白的地方,我鼓励你去查一查!注意当你的好奇心升起时,那就是冥想。在一起,我们可以学到新东西。

这一切,至少是我开始创作这件作品时的意图!正如刘肯在翻译三体问题时谈到他的哲学时所说的那样:“我可能没有成功,但这些是我开始任务时心中的标准。”

在这里,第一部分只涉及基因组及其到蛋白质的翻译。我还希望写一篇第2部分,涵盖这些蛋白质的结构和功能,它们的蛋白质-蛋白质相互作用,以及病毒的整个生命周期。

积极意义:单链RNA可以立即被它感染的细胞的核糖体翻译成蛋白质。

由此我们还可以推断,病毒编码的蛋白质之一一定是RNA依赖的RNA聚合酶(RdRP),这是一种在给定RNA模板的情况下合成新RNA的蛋白质。没错:rna→rna。然而,根据分子生物学的中心教条,rna→rna难道不是一种不合情理的异端邪说吗?相应地,RdRP不是天然存在于细胞中的!因此,所有已知的正义ssRNA病毒都必须编码RdRP,才能成功地实施这种异端。

…。等一下,“正义ssRNA病毒”这个短语暗示了负义病毒的存在。如果它们不直接编码它们的蛋白质,它们怎么可能工作呢?

负义单链RNA病毒的内部内容不是由RNA基因组组成,而是由核糖核蛋白组成,核糖核蛋白既包括RNA基因组,也包括一组能够复制RNA的病毒蛋白。与正义ssRNA病毒不同,负义ssRNA病毒必须携带其RNA复制蛋白的工作副本。这种核糖核蛋白具有酶活性!

既然RdRP(据我所知)在人类细胞中没有合法的用途,也不是由人类细胞自然编码的,它是否会为新型抗病毒药物提供一个潜在的靶点?

Velkov等人。2014探索了RdRP作为抗Hendra病毒的药物靶点,Hendra病毒是一种负向单链RNA病毒,尽管我无法找到全文。

这篇综述考察了基于Hendra RdRP的多领域架构的现有知识,并强调了哪些基本领域功能代表了针对这种致命疾病的药物开发的有形靶点。

开发针对这种蛋白的抗病毒药物在技术上(或社会上)是复杂的,这肯定是有原因的,否则我早就预料到我们现在会这么做-理论上有很多RNA病毒可以被这种药物靶标击中。指出了这一差异,以供进一步研究。1个

回到SARS-CoV-2!首先,让我们得到一个基因组。显然,这种病毒在传播过程中出现了一些变异,正如你可以在NextSTrain上探索的那样,所以从技术上讲,我们可以选择分析哪种病毒。在这个帖子中,我只会坚持分析基因组的一个版本:武汉-胡-1。

提醒一下,基因组中的每个A、G、C和T都是四种核苷酸中的一种:腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。实际上,有很多方法可以通过添加人工核苷酸来设计不同的非自然碱基对系统,这些方法甚至可以整合到转录和翻译中,但无论出于什么原因,这四种而不是其他的才是生命最终的结果。

武汉-HU-1的基因组可从NCBI GenBank获得。由于SARS-CoV-2是一种RNA病毒,从技术上讲,这个字符串中的每个T代表一个U,代表尿嘧啶,相当于RNA的胸腺嘧啶。因此,基因组序列是:

1 AUAAAGGUU UAUACCUCC CAGGUAACAA ACCACAAC UUCGAUCUC UUGUAGAUCU61 GUCUAAA CGAACUUAA AAUCUGGUGG GCUGUCACUC GGCUGCAUGC UUAGGCACU121 CACGCAGUAU AAUUAUAAC UAAUUACUGU CGUUGAAC。

这是29,903个核苷酸。由于只有四个可能的核苷酸,我们可以估计每个核苷酸的信息压缩值大约为2位;因此病毒的基因组只需要7.5千字节来存储。到目前为止,这些数据几乎和本文中的字符一样多!

沿着核糖-磷酸骨架排列这29,903个碱基,从5‘端到3’端从左到右阅读它们,然后砰--如果单个分子*被传送到细胞内,那就100%的化学成分**足以感染当期鼠疫患者。

第一个问题,也可能是肉眼最明显的一个问题--病毒基因组末端的所有AAAAA是怎么回事?

很简单:这是一个3‘的多A尾巴!这种腺苷单体的长尾在我们自己的细胞和RNA病毒中都非常常见。

我们自己的信使RNA(MRNA)在细胞核中新鲜产生时有一条PolyA尾巴,以减缓细胞的降解,使其持续足够长的时间被转录成蛋白质。当然,如果你是一种正链RNA病毒,你也会想要持续足够长的时间来转录成蛋白质-所以,你自己也需要同样的功能。

当我们讨论mRNA的化学特征时,请注意,病毒基因组可能也必须有一个5‘帽-RNA链的5’端额外的7-甲基鸟苷-就像mRNA一样。

该帽没有直接显示在病毒基因组序列中,也没有在NCBI GenBank中提到,但在讨论冠状病毒基因组的多篇论文中都提到了它:

自2003年以来,严重急性呼吸综合征(SARS)冠状病毒的爆发引起了越来越多的关注,并引发了对冠状病毒分子病毒学的大量研究。在这里,我们回顾了目前对冠状病毒产生病毒基因组RNA的5‘-帽结构和甲基化修饰的机制的理解。

冠状病毒在病毒基因组RNA和亚基因组RNA的5‘端具有帽子结构,这种帽子结构是由病毒编码的鸟嘌呤-N7-甲基转移酶(N7-MTase)和2’-O-甲基转移酶(2‘-O-MTase)连续甲基化产生的。冠状病毒N7-MTase是独一无二的,因为它与冠状病毒非结构蛋白14(Nsp14)中含有的外显子(外显子)有物理联系。

像PolyA尾巴一样,5‘帽帮助基因组被核糖体识别和翻译,而不是被细胞的免疫反应破坏。

这种病毒如何确保它有一个5‘帽和一条PolyA尾巴,更不用说它的外衣了?这些问题有望通过我们对其基因和蛋白质…的研究来解决。让我们继续来看看这些!

根据基因组的“特征”部分,同样来自NCBI GenBank,这里是这个基因组中的可识别基因,顺序如下:

这是基因组中的第一个基因,也是迄今为止最长的基因,重达7096个氨基酸:

1 MESLVPGFNE KTHVQLSLPV LQVRDVLVRG FGDSVEEVLS EARQHLKDGT CGLVEKGV61 LPQLEQPYVF IKRSDARTAP HGHVMVELVA ELEGIQYGRS GETLGVLVPH VGEIPVAYRK121 VLRRKNGNKG AGGHSYGADL KSFDLGDELG TDPYED。

对于病毒最长的基因来说,这一基因似乎为我们的朋友编码了RNA复制酶RdRP,这并不令人惊讶!其完整的蛋白质产物消耗RNA单体并催化其聚合。

而且它相当长:这种病毒有10个基因,这个单一的基因代表了病毒基因组的71.2%。这种独特的rna→rna复制酶功能确实是这里信息论的大部分内容。奎因斯;去想想吧!

稍后将详细介绍该蛋白质的结构和功能,但首先要说明的是:Orf1ab基因的潜在核苷酸是如何产生这些特殊的氨基酸的?

Orf1ab基因的范围从266号核苷酸到21,555号核苷酸(包括这两个核苷酸)。不幸的是,GenBank数据中的核苷酸是1索引的,而不是0索引的。

我们可以在266号核苷酸看到起始密码子的签名AUG,在21,553号核苷酸看到赭色终止密码子的UAA。到目前一切尚好!。

241.AUGGA GAGCCUGUC CCUGGUUCA ACGAGAAAC301 ACACGUCAA CUCAGUUGC CUGUUACA GGUCGAC GUGCUCGUAC GUGGCUUGG361 AGACUCCGUG GAGGAGGUCU UAUCAGAGGC ACGUCAU CUUAAAGAUG GCACUUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUGGUG。..。

然而,令人困惑的是,这个编码区的长度是21,555-265=21,290,这不能被3整除。通常情况下,3个核苷酸=1个氨基酸,所以一个基因的长度通常可以被3整除。这是怎么回事?

请注意,在GenBank数据中,该基因被标记为核糖体滑移。还要注意的是,在基因库中,该基因的区域标记为JOIN(266..13468,13468..21555),而不仅仅是266..21555。

经过一些研究,这里的答案是核苷酸13,468实际上被使用了两次,这要归功于-1核糖体移码,这是某些病毒基因组的一种令人着迷的热力学-生化怪癖!

程序性核糖体移码是一种可供选择的翻译机制,用于合并由两个重叠的开放阅读框架编码的蛋白质。移码发生的频率很低,由核糖体在翻译过程中沿5‘(-1)或3’(+1)方向滑动一个碱基组成。有些病毒同时含有+1和-1核糖体移码。[…]。

编码在mRNA中的所有顺式作用移码信号至少由两个功能元件组成:符合一般形式XXXYYYZ的七核苷酸“滑序列”,紧随其后的是RNA结构元件,通常是H型RNA假结,位于下游的最佳核苷酸数量(5到9个)。在mRNA中编码的所有顺式移码信号都由两个功能元件组成:符合一般形式XXXYYYZ的七核苷酸“滑序列”,以及位于下游的最佳核苷酸数量(5到9个)的RNA结构元件,通常是H型RNA假结。

如果我们看一下13468号核苷酸,我们确实发现了七核苷酸的“滑动序列”:它是UUAAAC。这个C是13468个核苷酸,它最终被转录了两次。

这个移码给了我们21,291个核苷酸的总长度。终止密码子减去3,然后除以3,我们得到一个与报道的蛋白质序列长度相匹配的数字:7,096个氨基酸。万岁!

所以,算术算出来了。我们现在知道了什么是核糖体滑动和连接(266...13468,13468...21555),我们知道这21,290个核苷酸是如何变成7,096个氨基酸的。不过,我还有两个问题:

程序化核糖体移帧的热力学控制(Bock等人。2019年)通过执行自由能分子动力学模拟探索了核糖体移帧是如何发生的。本文还解释了该七核苷酸滑动序列的结构和功能,说明:

自发性核糖体滑移是一种罕见的事件,平均每104-105密码子中发生一次。这种低自发移码在含有程序性核糖体移码(PRF)序列的特定mRNA上显著增加。PrF需要一个光滑的序列,通常由XXXYYYZ七聚体组成,其中XXX和YYY是相同碱基的三联体,Z是任何核苷酸,这允许0-框架和−1-框架中的P-位点和A-位点tRNA的同源配对。与滑点密码子结合的tRNA的性质是关键的,包括反密码环中核苷酸的修饰(即,在tRNA的34和37位)。

本文以大肠杆菌dnaX基因为例,分析了几个七核苷酸滑动序列,并解释了它们的热力学特性。根据它们的细分,每个示例序列取决于以下摆动配对中的一个或多个:

U·G摆动副。根据Varani和McClain 2000年的说法,U·G摆动对“具有与沃森-克里克碱基对相当的热力学稳定性,并且与它们几乎同构。”

G·S和A·S对。Per Bock等人。2019年,大肠杆菌“具有单一的tRNA-赖氨酸等位受体(反密码子3‘UUS-5’),用于解码两个赖氨酸密码子AAG和AAA”,其中“S表示修饰的核苷酸mnm5s2U”。

例如,在Bock等人中解释的七核苷酸滑动序列之一。是七核苷酸序列UUUAAG。当核糖体读取这个序列时,它最初将其解析为..U UUU Phe AAG Lys,但随后向后抖动到...。UUU Phe UAA Lys读框。尽管通常被翻译为终止密码子,但第二个UAA通过U·U错配和A·S对的组合保留了其附着的tRNA Lys。

不幸的是,如果我们想了解SARS-CoV-2,UUUAAG不是我们感兴趣的序列!我们需要我们感兴趣的特殊的七核苷酸滑动序列UUUAAAC,尽管这篇论文是彻底和有用的,但它的例子中没有一个涉及到它。我们如何确定UUUAAAC具有SARS-CoV-2在这里生产蛋白质所需的热力学性质?

经过一些调查,我终于偶然发现了对冠状病毒核糖体移帧信号(Brierley,Jenner,and Inglis 1992)的“滑序列”成分的突变分析,这是一篇研究论文,完全涵盖了相同的七核苷酸序列(在冠状病毒的上下文中也是如此),甚至还给出了一个有用的图表!

经过-1移码后,这两个tRNA现在被摆动配对到UUU(U·U不匹配)和AAA(A·G不匹配2)。

我们在讨论Orf1ab基因的时候还有最后一个细节。到目前为止,我读过的许多论文似乎都暗示了这样一个事实,Orf1ab实际上产生了两种蛋白质产物:一种是其完整的蛋白质产物(名为pp1ab),另一种是部分翻译(名为pp1a),这是由于核糖体在核糖体移码时脱落,而不是经历移码事件。序列的前半部分本身可以被称为基因Orf1a。

ORF1a的翻译得到一个理论上∼500 kDa的多蛋白,而ORF1ab的翻译得到一个∼800 kDa的多蛋白。

在感染过程中没有检测到ORF 1a和1AB多蛋白,因为它们很可能是通过新生多蛋白中的蛋白酶活性在共翻译和翻译后加工成中间和成熟蛋白的。

这两种基因都会产生多蛋白,在继续执行它们的功能之前,这些蛋白实际上会被切成更小的蛋白,所以提前终止pp1a的可能性最终几乎没有什么后果,除非它部分地减少了pp1ab的翻译。

这就是我们对Orf1ab基因翻译的分析。基因组到目前为止解释了71.31%!

相比之下,剩下的9个基因相当平淡无奇。它们都以起始密码子(AUG)开头,以终止密码子(UAA、UGA或UAG)结尾,并且不要试图在两者之间做任何棘手的事情。

它们的力量加在一起,可以解释97.53%的基因组。如果你看一下其余的,你会发现没有多少是没有计算在内的。有两个未翻译的区域-有5‘UTR重达265个碱基对,还有3’UTR(包括PolyA尾巴)重达229个碱基对。这覆盖了99.07%的基因组!剩下的277个碱基对分散在10个基因之间的空隙中。

如果不讨论二级结构,对长的单链RNA的结构和功能的讨论是不完整的。

是的,RNA也有二级结构--它不仅仅是蛋白质的二级结构!就像双螺旋DNA将一条链绑定到另一条链一样,当区域具有足够互补的核苷酸时,单链RNA可以与自己结合,形成茎、发环和更复杂的3D结构。

这个假结听起来可能很耳熟-就像我们在讨论核糖体移码时提到的那样:

编码在mRNA中的所有顺式作用移码信号至少由两个功能元件组成:符合一般形式XXXYYYZ的七核苷酸“滑序列”,紧随其后的是RNA结构元件,通常是H型RNA假结,位于下游的最佳核苷酸数量(5到9个)。在mRNA中编码的所有顺式移码信号都由两个功能元件组成:符合一般形式XXXYYYZ的七核苷酸“滑序列”,以及位于下游的最佳核苷酸数量(5到9个)的RNA结构元件,通常是H型RNA假结。

假结是RNA二级结构比较复杂的例子之一,首先在芜菁黄花叶病毒中发现,它本身就是另一种单链正义RNA病毒,就像冠状病毒一样。

通过发夹环和发夹的单链区之间的碱基配对形成H型假结。该结构包括两个螺旋茎和两个环,以及连接两个螺旋茎的可能的第三个环/连接。

也许我们可以确定SARS-CoV-2基因组的二级结构,或者如果不是,至少可以确定假结的二级结构,因为这一部分起着重要的调节功能。

从我们对核糖体移码的研究中我们知道,假结应该发生在光滑序列下游的5到9个核苷酸左右。这里又是一段周围基因组序列的片段:

对于短于4000个核苷酸的RNA,有一些在线工具可以预测任意RNA的二级结构,比如RNAfold;但是,我找不到任何一个可以处理29,903个核苷酸的RNA的次要庞然大物。所以,我只能在现有的文献中搜索,看看这种特殊的长RNA有什么结果。

幸运的是,SARS-CoV-2和SARS相关病毒中的RNA基因组保守和二级结构(Rangan等人)。2020)概述了病毒的一些二级结构,包括伪结,并仔细分析了在这个家族中的病毒进化过程中,哪些结构元素仍然是保守的!

如该论文的图4所示,下面是滑动序列附近的区域是如何将自己缠绕成一个H型伪结的:

请注意这里存在一些U·G摆动对,正如我们在前面关于摆动配对的讨论中所提到的!

我们可以通过将上面的辅助%s转换为3D来查看此伪结点。

.