Dexplot:用于交付数据可视化的Python库

2020-06-12 09:42:02

Dexplot是一个Python库,用于以简单直观的用户体验交付漂亮的数据可视化。

使用尽可能少的函数来维护非常一致的API,以生成所需的统计图。

DEXPT主要是为长数据构建的,长数据是一种数据形式,其中每行表示一个观测值,每列表示一个不同的量。它通常被称为整齐的数据。这里,我们有一些很长的数据。

Dexplot还具有处理宽数据的能力,其中多个列可能包含表示相同数量的值。以上相同的数据已汇总,以显示邻居和房产类型的每种组合的平均值。现在它是宽数据,因为每列包含相同的数量(价格)。

Dexplot提供了少数功能强大的函数,它们的工作方式都很相似。大多数绘图函数都有以下签名:

当提供aggfunc时,x将是分组变量,y在垂直时将聚合,水平时反之亦然。学习如何使用dexlot的最好方法是使用下面的示例。

有两个主要的地块家族,聚集型和分布型。聚合图采用一系列值,并使用提供给aggfunc的函数返回单个值。分布图采用一系列值,并以某种方式描绘分布的形状。

如果您使用过海运库,那么您应该会注意到许多相似之处。DexPlot的大部分灵感都来自于Seborn。以下是在海运中找不到的dexlot中的额外功能列表

能够使用单个函数创建网格,而不必使用更高级别的函数,如catlot。

我们将从报道聚合起来的情节开始。聚合被定义为用单个值汇总一系列数字的函数。这些示例来自Airbnb数据集,其中包含来自华盛顿特区地区的许多房产租赁列表。

我们的数据集中有4000多个列表。我们将使用条形图来汇总数据。

为了执行聚合,必须为aggfunc提供一个值。在这里,我们找到了每个社区的中值价格。请注意,列名自动换行。

可以使用相同的命令创建折线图和散点图,只需替换函数名即可。它们都不是可视化的好选择,因为分组变量(邻域)没有有意义的顺序。

只要设置了aggfunc参数,您就执行了GROUPBY聚合,该聚合始终由三个组件组成:

除了所有常见的聚合函数之外,您还可以使用字符串';countna';和';cepna';来获取每个组缺少值的数量和百分比。

默认情况下,条形图将按分组列(此处为x轴)按字母顺序排序。使用SORT_VALUES参数按值对条形图进行排序。

通过将值列表传递给x_order,指定x轴上标签的特定顺序。这也可以用作限制条数的过滤器。

默认情况下,x_order和所有_order参数默认设置为';asc';,这将按字母顺序对它们进行排序。使用字符串';desc';以相反方向排序。

通过将x_order设置为字符串';top n&39;或';Bottom n';(其中n为整数),您可以再次使用x_order筛选出现频率最高/最不频繁的x值。在这里,我们筛选出出现频率最高的4个社区。当分组列中有数十个唯一值时,此选项非常有用。

哥伦比亚高地773联合车站713国会山654Edgewood 610Dupont Circle 549Shaw 514Bright twood Park 406Kalorama Heights 362名称:Neighborhood,dtype:int64。

将水平条的方向设置为';h';。当您这样做时,您将需要切换x和y,因为分组列(邻域)将沿着y轴,而聚合列(价格)将沿着x轴。

通过将Split参数设置为另一列,可以将每个钢筋拆分为更多组。

使用SPLIT_ORDER设置唯一拆分值的顺序,它也可以用作筛选器。

与所有_ORDER参数一样,SPLIT_ORDER默认为';ASC';(字母顺序)。相反,请将其设置为Desc&39;。

通过将堆叠设置为True,将所有拆分组堆叠在另一个组之上。

可以通过具有ROW和COLE参数的不同列中的唯一值将数据进一步分割为单独的绘图。在这里,每种property_type都有自己的图。

如果所有绘图都没有空间,请将WRAP参数设置为整数,以设置每行/列的最大绘图数量。我们还将colorder指定为按字母顺序降序。

默认情况下,所有轴限制都是共享的。通过将SHARX和SHARY设置为FALSE,允许每个绘图设置自己的限制。

条的宽度(水平时的高度)是使用Size参数设置的。默认情况下,此值为0.9。将此数字视为特定x/y值的所有条的相对宽度,其中1是每个x/y值之间的距离。

分布图的工作原理与此类似,但由于它们不聚合,因此没有聚集性。他们取他们的一组值,画出某种形状,给出变量如何分布的信息。

箱形图具有末端位于第一个和第三个四分位数的彩色方框,中间有一条线。将胡须放置在第三个和第一个四分位数之间差值的1.5倍(四分位数范围(IQR))。传单是此范围之外的点,并单独打印。默认情况下,长方体打印和小提琴打印都是水平打印。

可以通过将最小值和最大值的列表传递给x_order来过滤可能值的范围。

小提琴曲线图的工作原理与盒子曲线图相同,但显示的是小提琴,即在直线两边重复的内核密度曲线图。

直方图的工作方式略有不同。不是同时传递x和y,而是给它一个数值列。默认情况下会创建包含20个计数箱的垂直直方图。

在这里,我们通过绘制累积密度来定制直方图,而不是使用条形图的轮廓绘制原始频率计数(第#39;步)。

核密度估计提供了对连续变量的概率分布的估计。在这里,我们检查价格是如何按卧室分配的。

COUNT函数以条形图表示唯一值的频率。默认情况下,它按降序绘制值。

哥伦比亚高地773联合车站713国会山654Edgewood 610Dupont Circle 549Shaw 514Bright twood Park 406Kalorama Heights 362名称:Neighborhood,dtype:int64。

将Normize设置为True时,将返回相对于所有数据的相对频率。您可以对所提供的任何变量进行标准化。

DEXPT还可以绘制宽数据,或者没有聚合的数据。下面是每个列表位置的散点图。

如果您已经汇总了数据,则可以直接绘制它,而无需指定x或y。