教你用Python创建瀑布图(1)


教你用Python创建瀑布图

介绍

对于绘制某些类型的数据来说,瀑布图是一种十分有用的工具。不足为奇的是,我们可以使用Pandas和matplotlib创建一个可重复的瀑布图。

在往下进行之前,我想先告诉大家我指代的是哪种类型的图表。我将建立一个维基百科文章中描述的2D瀑布图。

这种图表的一个典型的用处是显示开始值和结束值之间起“桥梁”作用的+和-的值。因为这个原因,财务人员有时会将其称为一个桥梁。跟我之前所采用的其他例子相似,这种类型的绘图在Excel中不容易生成,当然肯定有生成它的方法,但是不容易记住。

关于瀑布图需要记住的关键点是:它本质上是一个堆叠在一起的条形图,不过特殊的一点是,它有一个空白底栏,所以顶部栏会“悬浮”在空中。那么,让我们开始吧。

创建图表

首先,执行标准的输入,并确保IPython能显示matplot图。

  1. import numpy as np 
  2. import pandas as pd 
  3. import matplotlib.pyplot as plt 
  1. %matplotlib inline 

设置我们想画出瀑布图的数据,并将其加载到数据帧DataFrame)中。

数据需要以你的起始值开始,但是你需要给出最终的总数。我们将在下面计算它。

  1. index = ['sales','returns','credit fees','rebates','late charges','shipping'
  2. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  3. trans = pd.DataFrame(data=data,index=index) 

我使用了IPython中便捷的display函数来更简单地控制我要显示的内容。

  1. from IPython.display import display 
  2. display(trans)

教你用Python创建瀑布图

瀑布图的最大技巧是计算出底部堆叠条形图的内容。有关这一点,我从stackoverflow上的讨论中学到很多。

首先,我们得到累积和。

  1. display(trans.amount.cumsum()) 
  2.  
  3. sales 350000 
  4.  
  5. returns 320000 
  6.  
  7. credit fees 312500 
  8.  
  9. rebates 287500 
  10.  
  11. late charges 382500 
  12.  
  13. shipping 375500 
  14.  
  15. Name: amount, dtype: int64 

这看起来不错,但我们需要将一个地方的数据转移到右边。

  1. blank=trans.amount.cumsum().shift(1).fillna(0
  2.  
  3. display(blank)
  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. Name: amount, dtype: float64 

我们需要向trans和blank数据帧中添加一个净总量。

  1. total = trans.sum().amount 
  2.  
  3. trans.loc["net"] = total 
  4.  
  5. blank.loc["net"] = total 
  6.  
  7. display(trans) 
  8.  
  9. display(blank) 

教你用Python创建瀑布图

  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. net 375500 
  14.  
  15. Name: amount, dtype: float64 

创建我们用来显示变化的步骤。

  1. step = blank.reset_index(drop=True).repeat(3).shift(-1
  2.  
  3. step[1::3] = np.nan 
  4.  
  5. display(step)
  1. 0 0 
  2.  
  3. 0 NaN 
  4.  
  5. 0 350000 
  6.  
  7. 1 350000 
  8.  
  9. 1 NaN 
  10.  
  11. 1 320000 
  12.  
  13. 2 320000 
  14.  
  15. 2 NaN 
  16.  
  17. 2 312500 
  18.  
  19. 3 312500 
  20.  
  21. 3 NaN 
  22.  
  23. 3 287500 
  24.  
  25. 4 287500 
  26.  
  27. 4 NaN 
  28.  
  29. 4 382500 
  30.  
  31. 5 382500 
  32.  
  33. 5 NaN 
  34.  
  35. 5 375500 
  36.  
  37. 6 375500 
  38.  
  39. 6 NaN 
  40.  
  41. 6 NaN 
  42.  
  43. Name: amount, dtype: float64 

对于“net”行,为了不使堆叠加倍,我们需要确保blank值为0。 

  1. blank.loc["net"] = 0 

然后,将其画图,看一下什么样子。

  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall"
  2. my_plot.plot(step.index, step.values,'k')

教你用Python创建瀑布图

看起来相当不错,但是让我们试着格式化Y轴,以使其更具有可读性。为此,我们使用FuncFormatter和一些Python2.7+的语法来截断小数并向格式中添加一个逗号。

  1. def money(x, pos): 
  2.  
  3. 'The two args are the value and tick position' 
  4.  
  5. return "${:,.0f}".format(x)
  1. from matplotlib.ticker import FuncFormatter 
  2. formatter = FuncFormatter(money) 

然后,将其组合在一起。 

  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall"
  2.  
  3. my_plot.plot(step.index, step.values,'k'
  4.  
  5. my_plot.set_xlabel("Transaction Types"
  6.  
  7. my_plot.yaxis.set_major_formatter(formatter)




评论关闭