如何在家里排序你的基因组

2021-06-07 23:33:11

在这篇文章中我' ll描述了如何在家里序列序列,唯一的事情。这里描述的协议不一定是做到这一点的最佳方式,但它'什么为我工作了最适合。它的设备上有几千美元可以开始,但(低覆盖率)排序本身只需要150美元,几个小时的工作,几乎没有实验室技能。

首先,它有助于解释一些术语:具体地说,特别是,从德诺夫基因组组件中区分定期参考基础组件。

二十年左右,人类基因组在一个完整的人类基因组序列中(实际上将来自几个人类的数据组合)。所有人类均为99.9%+遗传相同,该参考基因组可以用作任何人的模板。最简单的对人类基因组进行序列的方式是产生数百万的短读取(100-300个碱基对)并将它们对准至此。

基于参考的组件的替代方案是DE Novo组件,在这里,通过拼接重叠的测序读取来弄清出基因组序列而不使用该参考。这是更加困难的计算(如果您的读数太短,实际上是不可能的)但是,与参考相比,您可能会看到大的差异。例如,它'''在参考基因组,所谓的结构变体中没有罕见的基因组中没有常见。

在参考基因组中也存在间隙,特别是在染色体的末端和中间,由于高度重复序列。事实上,由于超长纳米孔读取,第一个全末端的端到端人体染色体。

对于非人类来说,基因组组装通常是DE Novo,因为基因组是小而非重复(细菌),或者没有参考(新序列物种)。

获得人类基因组序列数据的最便宜方式是SNP芯片,如23andme芯片。这些芯片通过测量基因组中的特定预定位置的特定预定位置的变化。我们知道人类基因组通常变化的位置,我们只能检查几十万个职位,看看大部分变化。您还可以准确赋予额外的额外变种,不在芯片上。这是"基因分型和#34;而不是"测序"是你不要获得一种邻接的序列,CS,GS和TS。SNP芯片的主要缺点是您不能直接测量不在芯片上的变体,因此您将错误地误导,特别是罕见的和新的变种另一方面,感兴趣的特定变体的准确性(例如,隐性疾病变异如囊性纤维化ΔF508)可能高于测序基因组。

短读测序几乎始终使用Illumina序列仪进行,尽管其他短读技术是壮族的。这些机器输出数百万或数十亿个基部读取,您可以与参考人类基因组合.Generally,人们喜欢平均30倍的人类基因组(〜100千兆比宫)的覆盖率,以确保在基因组上的高精度。

虽然您可以读取不存在于SNP芯片上的变体,但这仍然不是完整的基因组:覆盖范围在整个基因组上不等于,因此一些地区可能对呼叫变体具有太低的覆盖率;参考基因组是不完整的;一些结构变种(插入,倒置,重复区域)不能用短读取来检测。

过去几年已经看到单分子长读测序发展成一个必不可少的互补品,有时可靠的Illumina替代品。这两名球员,太平洋生物科学和牛津纳米山(ONT)现在是成熟的技术。这些技术的重要优势是你在极端举例中,在ONT上从数千次到兆字节的读数远超过300bp - 在极端的例子中, - 等程序集装箱很容易。这使得De Novo装配,并且尤其有用,并且尤其有用序列。对于这个原因,长读排序几乎是必不可少的用于测序新物种,特别是高度重复的植物基因组。

听起来很棒!为什么人们仍然使用Illumina那么呢?Illumina的每个基本精度和每基础成本仍然比这些竞争对手更好(虽然Ont'母亲正在接近价格)。

ONT过度竞争对手的一个巨大优势在于仪器是一个相当叠加的状态装置,可以读取来自纳米孔的电信号.Since大多数技术都在消耗品和#34;流动细胞"毛孔,仪器可以很小,几乎可以自由购买。

而不是消费&美元50k-1m在需要服务合同等的复杂机器上,您可以几乎没有地获取订书机大小的碎片序列序列,并且您可以差不多使用它.ONT也做得很好驾驶每个实验的成本下降,尤其是通过释放称为林林的较低输出流动单元适配器.Flongle流动细胞每流动细胞仅花费90美元,并产生100兆比例至> 1千兆位序列。

(注意,要使这篇文章独处,我从我以前的家庭实验室Blogpost复制了文字。)

eppendorf 5415c从eBay离心为300美元。 DNA提取需要旋转的离心机,可以在> = 12k rpm,这意味着一个大型实验室级离心机。

迷你离心为45美元,of-Odin.com.They还以125美元的价格出售一个漂亮的10k rpm版本。

两种水浴,例如水浴。这个Anova Sous Vide view am亚马逊99美元。

一个犬群纳米波尔序列。不幸的是,你没有盛会起动包的矿物(1,460美元)。我知道要获得新的唯一方法是占地1,000美元,其中包括一个矿物流动细胞,价值约1000美元。

冰箱没有除霜周期。我以150美元的价格购买了一个小型迷你冰箱,所以我的实验室不会在厨房冰箱里。

无线冰箱温度计。这只是25美元,它的工作很好!它有用的是能够跟踪冰箱或冰箱中的温度。有些冰箱可以感冒足以冻结,这对流动细胞致命。

一个基因脱位检查DNA提取的质量。20岁的机器在eBay上花费了大约150美元的eBay.it' SA有用的工具,但确实需要很多样本(我使用200μl)。我更多地写了一点在这里。

测序中的第一步是DNA提取(即,从生物材料中分离DNA)。我使用Zymo Quick-DNA Microprep Plus套件,耗费132美元。' 50 Preps,所以有点低于3美元。其他套件在那里,像Neb'君主,但这些更难购买(需要PO或商业地址)。

Zymo套件需要" 20分钟" (它需要我大约40分钟,包括设置)。它非常通用:它可以与#34;细胞培养,固体组织,唾液和任何生物液体样品"这项准备很容易,除蛋白酶K外的所有试剂均只是在室温下储存。他们可以恢复它可以恢复> 50kb碎片,并且轶事,这是我所看到的最大长度。这是远离梅格萨斯 - 长"鲸鱼&# 34; readssome实验室可以实现,但这些准备比较复杂且耗时。总而言之,10kb碎片足够长,足以让大多数用例。

图书馆准备是制备用于测序的DNA的方法,例如通过附着"电机蛋白"它一次通过孔一底棘轮。快速图书馆准备(Rad-004)是最简单和最快的库准备方法,AT& Dollar600适用于12项准备(&美元50 per prep)。

图书馆准备与DNA提取一样困难,并且需要大约30分钟。涉及一些非常低的体积(低至0.5μl,与我的移液器一样低),并且您需要两个水浴温度,但总体而言,它非常简单。

从获取样本到开始测序的总时间可能几乎没有60-90分钟。您可以在较低的读取长度和较低的吞吐量下支付这种便利性。

您可以从ONT / NANOPORE获得的数据量相当多样化。inlumina和纳米泊琳之间的基本差异是纳米孔是单分子测序。纳米孔,每次读数代表横穿孔的单个DNA分子。illumina,读取是来自许多DNA分子的aggeggated信号(这有助于精度)。

所以,纳米孔真的使用你放入的原料。如果有污染物,那么他们可以堵塞毛孔。如果样品中大多是短的DNA片段,你将大多是短的读数。时间,毛孔降级,所以你赢得了从一个月大的流量单元那里得到了一个新的数据。

使用上面的协议,我已经能够从一个林格达到100-200兆比特的数据(每Megabase 1美元!)。可能有一些因素促进这种相对较低的吞吐量:快速套件不起作用更复杂的结扎套件;我没有做大量排序,所以协议肯定会不完全执行;我的流细胞并不总是新鲜。

对于人类样品,100兆比例小于一个0.1倍的基因组,这提出了为什么你想要这样做的公平问题?今天,答案主要是因为你可以。你绝对可以做一些有趣的祖先分析,但是如果没有参考数据库,难以验证。 Gencovealso有几种良好的人口水平使用案例,用于低通测序。

来自林格的下一步是一个全尺寸的犬型流动单元,它在相同的设备上运行并使用相同的协议,但成本为900美元,理论上可以产生高达42千兆比赛的顺序。这将是一个"千美元基因组"尽管准确性可能低于您想要的诊断目的。一两年,我可能能够在家中产生诊断质量的人类基因组约1000美元。即使是一个体面的de novo集会。