在过去的一年里,科学家们已经重新命名了27个人类基因,因为微软的Excel将它们的名称误读为日期,并更改了格式

2020-08-07 18:08:22

人类基因组中有数以万计的基因:微小的DNA和RNA扭曲,它们结合在一起,表达了使我们每个人都独一无二的所有特征和特征。每个基因都有一个名称和字母数字代码,称为符号,科学家们用它来协调研究。但在过去一年左右的时间里,大约有27个人类基因被重新命名,所有这些都是因为微软Excel一直将它们的符号误读为日期。

这个问题并不像第一次听起来那么出乎意料。Excel是电子表格世界中的庞然大物,科学家经常使用它来跟踪他们的工作,甚至进行临床试验。但它的默认设置是考虑到更普通的应用程序而设计的,所以当用户在电子表格中输入基因的字母数字符号时,比如March1-“膜联环-CH-Type Finger 1”的缩写-Excel会将其转换为日期:1-Mar1。

这是极其令人沮丧的,甚至是危险的,破坏的数据,科学家们必须手工整理才能恢复。它也出人意料地广泛,甚至影响到同行评议的科学工作。2016年的一项研究检查了与3597篇发表的论文一起分享的基因数据,发现大约五分之一的论文受到Excel错误的影响。

“这真的,真的很烦人,”英国夸德拉姆研究所的系统生物学家DezsőMódos告诉The Verge。莫多斯的工作包括分析新测序的基因数据,他说Excel错误一直都在发生,原因很简单,因为当科学家处理数字数据时,软件往往是第一件要做的事情。他说:“这是一个广泛使用的工具,如果你不懂计算,你就会用到它。”“在攻读博士期间,我也是这样做的!”

解决问题也不容易。Excel不提供关闭此自动格式设置的选项,避免这种情况的唯一方法是更改单个列的数据类型。即便如此,科学家可能会修复自己的数据,但一旦其他人不假思索地在Excel中打开相同的电子表格,错误就会再次出现。

然而,以负责基因名称标准化的科学机构雨果基因命名委员会(HGNC)的形式提供了帮助。本周,HGNC发布了新的基因命名指南,包括“影响数据处理和检索的符号”。他们说,从现在开始,人类基因及其表达的蛋白质的命名将着眼于Excel的自动格式化。这意味着符号March1现在变成了MARCHF1,而SEPT1变成了SEPTIN1,依此类推。HGNC将存储旧符号和名称的记录,以避免将来出现混淆。

HGNC的协调员Elspeth Bruford告诉The Verge,到目前为止,在过去的一年里,大约27个基因的名称已经像这样改变了,但指南本身直到本周才正式公布。布鲁福德说:“我们咨询了各自的研究团体,讨论了拟议的更新,我们还通知了那些发表了这些基因的研究人员,这些基因具体是在这些变化付诸实施的时候发表的。”

正如布鲁福德所说的那样,基因命名的艺术在很大程度上是由共识驱动的。就像负责更新词典的词典编纂者一样,基因命名委员会必须对那些受其工作影响最大的人的需求保持敏感。

注意,情况并不总是这样的。在遗传学的早期前沿,基因命名往往是富有创造力的科学家的游乐场,导致了臭名昭著的基因,如“Sonic Hedgehog”(是的,以那个Sonic命名)和“Indy”(“我还没有死”的缩写;指的是基因的功能,当果蝇发生突变时,它可以使果蝇的寿命翻一番)。

然而,现在,HGNC已经牢牢地控制住了事情,目前的指导方针并没有向异想天开或自负让步太多。重点放在实际问题上:我们如何最大限度地减少混乱?该委员会说,出于这个原因,基因符号应该是唯一的,基因名称应该简短而具体。它们不能使用下标或上标;只能包含拉丁字母和阿拉伯数字;不应该拼写名称或单词,特别是攻击性的名称或单词(这一规则应该适用于“任何语言的理想情况”)。

布鲁福德说,虽然重新命名基因的决定并不是轻率的,但这并不罕见。例如,许多可以读作名词的基因符号已经被重新命名,以避免在搜索过程中出现假阳性。在过去,汽车变成了CARS1,战争变成了战争,火星变成了MARS1。为了避免侮辱,还做了其他一些改变。

“我们总是要想象一个临床医生必须向父母解释他们的孩子有一个特定基因的突变,”Bruford说。“例如,HECA过去的基因名称是‘Headcase Homolog(果蝇)’,这是以果蝇中的类似基因命名的,但我们将其改为‘HDC同源基因,细胞周期调节因子’,以避免潜在的冒犯。”

但布鲁福德说,这是该指南首次被专门改写,以应对软件造成的问题。到目前为止,人们的反应似乎非常积极-一些人甚至会说高兴。

遗传学家Janna Hutz在推特上分享了HGNC新指南的相关部分后,社区的反应是欢欣鼓舞的。赫茨本人在推特上写道:“人类基因命名委员会宣布了这一消息,感到非常兴奋。”“终于!”马萨诸塞州布罗德研究所的计算生物学家穆德拉·黑格德回答说。“今天最棒的新闻!”一位化名的推特用户说。

布鲁福德指出,对这一决定存在一些异议,但它似乎主要集中在一个问题上:为什么重命名人类基因比改变Excel的工作方式更容易?究竟为什么在微软和整个基因学界之间的斗争中,是科学家们不得不让步呢?

微软没有回应置评请求,但布鲁福德的理论是,根本不值得麻烦去改变。“这是Excel软件的一个相当有限的使用案例,”她说。“对于微软来说,几乎没有动力对Excel庞大用户社区的其他用户非常广泛地使用的功能进行重大改变。”

不过,布鲁福德似乎对这种情况并不怀恨在心。她说,毕竟,当科学家可以自己提出长期解决方案时,等待假想的Excel更新来解决这些问题是行不通的。Microsoft Excel可能转瞬即逝,但人类基因将和我们一样长久存在。最好给它们起个合适的名字。