加速倍数为14,000倍,也就是。获胜的计算机科学

2020-10-13 20:54:49

在我作为科学软件开发人员的工作中,我倾向于编写大量代码。大多数没有读过计算机科学学位的人倾向于认为CS“只是”把代码扔到屏幕上,然后运行它。我与我的许多同事和具有其他背景的同事保持着良好的工作关系。…。物理、气候科学、生物学等等。但是,当谈到开发软件时,我得到的明显印象是,人们会想,“嘿,这能有多难呢?我们只需写下几条指令,告诉计算机我们想要做什么,然后点击执行按钮,然后‘砰!’一声,我们就得到了答案!“。

这种思路的问题在于,编写与您认为的意思不符的指令非常容易。例如,计算机可能完全无法解释您的程序。此外,在不实际执行程序的情况下,几乎无法判断程序是否会真正终止。而且有很多、很多、很多种方法来编写程序,使其执行起来“很慢”。“慢”是…。真的很慢。好像要花一辈子甚至更长的时间才能真正执行。最后一个问题是我在阅读没有接受过CS教育的人编写的软件时最常遇到的问题。解决这个问题是我的工作。

关于CS,人们没有意识到的一件事是,它教会了你关于计算的理论,可计算性(也就是说,我们真的能计算什么吗?我们经常理所当然地认为我们可以!),算法复杂性,以及所有的知识、逻辑和分析技术,并帮助您编写一个将在最少的时间或使用最少的空间内运行的程序。

请允许我向您展示一个巨大的优化示例,这是我对一个同事编写的简单脚本所做的优化。

在气候科学方面,我们做了大量的缩减工作。我们从粗尺度的全球气候模式网格中获取温度和降水读数,并将其映射到细尺度的局部网格。假设全局网格为50x25,本地网格为1000x500。对于局部网格中的每个网格单元,我们希望知道它对应于全局网格中的哪个网格单元。

考虑这个问题的一个简单方法是,我们想要最小化L[n]和G[n]之间的距离。因此,执行搜索的简单方法是:

对于每个局部像元L[i]:对于每个全局像元G[j]:计算L[i]和G[j]之间的距离查找集合L[i]*G中的最小距离返回最小值的索引。

这看起来很简单。然而,如果你仔细观察,你会注意到你必须做很多额外的工作。根据输入的大小来查看算法。

对于每个局部像元L[i]:#对每个全局像元G[j]执行此操作L次:#执行此操作L x G次计算L[i]和G[j]之间的距离(D)#执行此L x G次查找集合中的最小距离d[i*j]#读取G个像元L次(开销L x G)查找其像元与最小值匹配的索引#读取G个像元L次(开销L x G)。

Obs.lon<;-ncvar_get(nc.obs,';lon&39;)obs.lat<;-ncvar_get(nc.obs,';lat<;)n.lon<;-length(obs.lon)n.lat<;-length(obs.lat)obs.lat<;-Matrix(obs.lat,nrow=n.lon,nol=n.lat,byrow=true)obs.lon<;-Matrix(obs.lon,nrow=n.lon,ncol=n.lat)obs.time<;-netcdf.endar(nc.obs)gcm.lon<;-ncvar_get(nc.gcm,';lon&39;)-360gcm.lat<;-ncvar_get(nc.gcm,&39;lat&39;)gcm.lats<;-Matrix(gcm.lat,ncol=length(gcm.lat),nrow=length(gcm.lon),byrow=true)gcm.lons<;-Matrix(gcm.lon,ncol=length(gcm.lat))gcm.lons.lats<;-Matrix(gcm.lon,ncolumn=length(gcm.lat),nrow=length(gcm.lat),nrow=length(gcm.lon),nrow=length(gcm.lon),nrow=length(gcm.lat),nrow=length(gcm.lat)。-cbind(c(gcm.lons),c(gcm.lats))#找出哪些GCM网格框与每个精细网格点相关联#将搜索限制在10度。X 10°。Neighborhooddxy<;-10mdist<;-function(x,y)Apply(abs(Sweep(data.Matrix(Y),2,data.Matrix(X),';-';),1,sum)nn<;-list()for(i in seq_long(obs.lons)){if((i%%500)==0)cat(i,';';)gcm.lims<;-((gcm.lons.lats[,1]>;=(obs.lons[i]-dxy))&;(gcm.lons.lats[,1]<;=(obs.lons[i]+dxy))&;((gcm.lons.lats[,2]>;=(obs.lats[i]-dxy))&;(gcm.lons.lats[,2]<;=(obs.lats[i]+dxy)gcm.lims<;-this(gcm.lims)n.min<;-which.min(mdist(c(obs.lons[i],obs.lats[i]),gcm.lons.lats[gcm.lims,]))nn[[i]]<;-gcm.lims[nn.min]}nn<;-unlist(Nn)。

所以,这似乎是一个简单的算法。“只要”计算距离,然后找出最小值。但是按照它的编写方式,随着局部网格单元数量的增加,我们的计算成本也会随着全局网格单元数量的乘积而增加。对于加拿大ANUSPLIN数据,有1068x510个单元格(总共544,680个),假设我们的GCM有50x25个单元格(总共1250个单元格)。因此,“某个计算单元”中内循环的成本为:

其中项是对应于计算两点之间的距离、找到最小点和找到数组索引的成本的常量。实际上,我们不太关心常量项,因为它们不受输入大小的影响。所以我们可以把它们聚集在一起,称之为成本;

这看起来很多,但真的吗?电脑很快,对吧?如果我们运行这个朴素的实现,情况大概是这样的:

最终耗时1668秒,略低于半小时。

>;source(';BCCA/naive.implementation.R';)500 1000 1500 2000 2500 3000...543000 543500 544000 544500[1]&34;用户系统运行时间为1668.868 8.926 1681.728。

但是我们需要花30分钟吗?事情是这样的。我们正在比较两个网格,这两个网格都有大量我们没有利用过的结构。例如,粗格网和细格网中的纬度和经度都是按顺序排序的。因此,如果你想搜索一个数字,你不需要查看每一个数字。您可以使用平分算法,在该算法中,您可以查看中间的点,然后决定要搜索阵列的哪一半。那么搜索整个空间只需要花费搜索空间的日志(以2为基数)。

另一个我们没有利用的主要结构是纬度在维度中重复,而经度在维度中重复。所以不用做一次运算,我们可以做几次。这是一个巨大的优化。

对于每个LOCAL[x]:BICET_SEARCH(LOCAL[x],GLOBAL[x])对于每个LOCAL[y]:BIVECT_SEARCH(LOCAL[y],GLOBAL[y])返回每个维度的搜索结果的二维格网。

##对*排序后的向量v#返回最接近xfind最近的元素的数组索引。-function(x,v){if(length(V)==1){return(1)}if(length(V)==2){return(which.min(abs(v-x)}mid<;-ceuling(length(V)/2)if(x=v[mid]){return(mid)}Else if(x<;V[MID]){return(find.NEAREST(x,v[1:MID]))}ELSE{RETURN((MID-1)+find.NEAREST(x,v[MID:Length(V)]))}}regrid.one.dim<;-function(粗点,细点){return(sApply(fine.point,find.neest,粗点))}##取纬度和经度的精细比例尺(例如ANUSPLINE)栅格##并找到对应于粗略比例尺(例如GCM)栅格的索引##因为搜索实质上是2维中的最小化距离##我们实际上可以单独在每个维度中独立地搜索(其中##是巨大的优化,使运行时x+y而不是x*y)和##然后重构索引以创建完整的gridregrid.coarse.to.fin.lt;-function(coarse.lats,coarse.lons,fine.lats,fine.lons){xi<;-regrid.one.dim(gcm.lon,obs.lon)yi<;-regrid.one.dim(gcm.lat,obs.lat)##索引Xi<;二维网格-Matrix(xi,ncol=length(fine.lats),nrow=length(fine.lons),byrow=F)yi<;-Matrix(yi,ncolumn=length(fine.lons),byrow=T)return(list(xi=xi,yi=yi)}。

每个平分搜索的成本是输入大小的对数。这次我们的输入大小被划分为X和Y空间,所以我们将为Global、Local、X和Y使用and。

加上我们的数字,我们估计成本为553,076英镑。55.3万听起来比6.8亿好多了。我们在运行时看到了这一点吗?

>;ptm<;-proc.time();rv<;-regrid.coarse.to.Fine(gcm.lat,gcm.lon,obs.lat,obs.lon);打印(';已用时间&39;);打印(pro.time()-ptm)[1]&34;用户系统已用时间0.117 0.000 0.117>;STR(房车)列表2$Xi:Num[1:1068,1:510]15 15 15...$yi:Num[1:1068,1:510]13 13 13。

0.117秒。半小时前我们花了近半个小时,现在我们花了一秒钟多一点的时间。

Soooooo…。我知道我受过做这类工作的训练,我的工作就是知道如何做这类事情。但即使是我也对这种加速是如此显著感到惊讶和自以为是。这是14000倍的加速。

此脚本过去需要很长时间,因此必须将其输出保存到磁盘,并由科学家手动检查,然后才能继续。现在你一眨眼的功夫就可以计算出来。这是一个我们必须做几百次的计算,这为我们节省了几天到几周的计算时间。它增加了与系统交互的能力,帮助我们从科学家的Time…中获得更多价值。他们不会无所事事地等待计算完成。它就这么做了。

我应该强调的是,这些史诗般的性能改进是在没有购买任何更大的计算机系统、没有并行化或增加复杂性的情况下出现的…。事实上,更快算法的代码实际上更简单、更可重用!只要阅读代码并对计算复杂性有一定的了解,这几乎是一个全面的胜利。

由Disqus提供支持的博客评论