完整脚本

基本图形能够正常工作,但是我想添加一些标签,并做一些小的格式修改。下面是我最终的脚本:

  1. import numpy as np 
  2.  
  3. import pandas as pd 
  4.  
  5. import matplotlib.pyplot as plt 
  6.  
  7. from matplotlib.ticker import FuncFormatter 
  8.  
  9.   
  10.  
  11. #Use python 2.7+ syntax to format currency 
  12.  
  13. def money(x, pos): 
  14.  
  15. 'The two args are the value and tick position' 
  16.  
  17. return "${:,.0f}".format(x) 
  18.  
  19. formatter = FuncFormatter(money) 
  20.  
  21.   
  22.  
  23. #Data to plot. Do not include a total, it will be calculated 
  24.  
  25. index = ['sales','returns','credit fees','rebates','late charges','shipping'
  26.  
  27. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  28.  
  29.   
  30.  
  31. #Store data and create a blank series to use for the waterfall 
  32.  
  33. trans = pd.DataFrame(data=data,index=index) 
  34.  
  35. blank = trans.amount.cumsum().shift(1).fillna(0
  36.  
  37.   
  38.  
  39. #Get the net total number for the final element in the waterfall 
  40.  
  41. total = trans.sum().amount 
  42.  
  43. trans.loc["net"]= total 
  44.  
  45. blank.loc["net"] = total 
  46.  
  47.   
  48.  
  49. #The steps graphically show the levels as well as used for label placement 
  50.  
  51. step = blank.reset_index(drop=True).repeat(3).shift(-1
  52.  
  53. step[1::3] = np.nan 
  54.  
  55.   
  56.  
  57. #When plotting the last element, we want to show the full bar, 
  58.  
  59. #Set the blank to 0 
  60.  
  61. blank.loc["net"] = 0 
  62.  
  63.   
  64.  
  65. #Plot and label 
  66.  
  67. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(105), title="2014 Sales Waterfall"
  68.  
  69. my_plot.plot(step.index, step.values,'k'
  70.  
  71. my_plot.set_xlabel("Transaction Types"
  72.  
  73.   
  74.  
  75. #Format the axis for dollars 
  76.  
  77. my_plot.yaxis.set_major_formatter(formatter) 
  78.  
  79.   
  80.  
  81. #Get the y-axis position for the labels 
  82.  
  83. y_height = trans.amount.cumsum().shift(1).fillna(0
  84.  
  85.   
  86.  
  87. #Get an offset so labels don't sit right on top of the bar 
  88.  
  89. max = trans.max() 
  90.  
  91. neg_offset = max / 25 
  92.  
  93. pos_offset = max / 50 
  94.  
  95. plot_offset = int(max / 15
  96.  
  97.   
  98.  
  99. #Start label loop 
  100.  
  101. loop = 0 
  102.  
  103. for index, row in trans.iterrows(): 
  104.  
  105. # For the last item in the list, we don't want to double count 
  106.  
  107. if row['amount'] == total: 
  108.  
  109. y = y_height[loop] 
  110.  
  111. else
  112.  
  113. y = y_height[loop] + row['amount'
  114.  
  115. # Determine if we want a neg or pos offset 
  116. if row['amount'] > 0
  117.  
  118. y += pos_offset 
  119.  
  120. else
  121.  
  122. y -= neg_offset 
  123.  
  124. my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center"
  125.  
  126. loop+=1 
  127.  
  128.   
  129.  
  130. #Scale up the y axis so there is room for the labels 
  131.  
  132. my_plot.set_ylim(0,blank.max()+int(plot_offset)) 
  133.  
  134. #Rotate the labels 
  135.  
  136. my_plot.set_xticklabels(trans.index,rotation=0
  137.  
  138. my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight'

运行该脚本将生成下面这个漂亮的图表:

最后的想法

如果你之前不熟悉瀑布图,希望这个示例能够向你展示它到底是多么有用。我想,可能一些人会觉得对于一个图表来说需要这么多的脚本代码有点糟糕。在某些方面,我同意这种想法。如果你仅仅只是做一个瀑布图,而以后不会再碰它,那么你还是继续用Excel中的方法吧。

然而,如果瀑布图真的很有用,并且你需要将它复制给100个客户,将会怎么样呢?接下来你将要怎么做呢?此时使用 Excel将会是一个挑战,而使用本文中的脚本来创建100个不同的表格将相当容易。再次说明,这一程序的真正价值在于,当你需要扩展这个解决方案时,它 能够便于你创建一个易于复制的程序。

我真的很喜欢学习更多Pandas、matplotlib和IPothon的知识。我很高兴这种方法能够帮到你,并希望其他人也可以从中学习到一些知识,并将这一课所学应用到他们的日常工作中。

 




评论关闭