python数据可视化 – 利用Bokeh和Bottle.py在网页上展示你的数据

在数据科学中，通过图表将数据可视化是一个很重要的工作，在开始数据分析之前，通过数据可视化可以帮助我们理解数据，而更重要的是，在完成分析、预测等等过程之后，我们需要通过数据可视化讲结论展示出来。通过网页创建可以交互的图表是展示数据的一个重要手段。

1. 文章重点和项目介绍

本文的重点将是展示如何将bokeh和bottle集成在一起，并部署到服务器上，供他人访问查阅，因此不会在bokeh和bottle，以及pandas的相关代码具体实现细节上面面俱到，但是对于我们实现的代码，还是会进行讲解（可能不会那么深入）。本文将选取中国2017到2019年的aqi数据作为项目的数据集，然后利用这些数据绘制3张表格（一张折线图和两张带分组的柱状图），然后通过bottle和bootstrap前端模板建立一个展示网页，最后会将这个网页应用部署到heroku上边（这一步作为参考，你可以通过localhost访问本机服务，或者选取其他云服务商的服务器）。

本文使用的数据集和代码实现都可以在下边这个github仓库中找到：

我已经将数据集进行过清理，数据集中包含规整的从2017年到2019年的各个城市的日aqi平均值。

2. 数据集研究和图表准备

在本节中，和大多数数据分析项目一样，我们将使用jupyter notebook作为我们的环境，因为这个工具能够方便的实现代码修改和及时的代码结果展示。
首先完成最重要的事情，导入必要的python库

import numpy as np
import pandas as pd

from bokeh.plotting import figure, show
from bokeh.models import columndatasource, hovertool
from bokeh.transform import dodge

from bokeh.io import output_notebook

然后在notebook中运行，下边代码来初始化bokeh，bokeh可以将图标输出成不同的格式文件，如html等，但是要在notebook中显示，则需要在最开始的时候指明。

output_notebook()

成功执行完以后，notebook会提示成功加载bokeh环境，如下：

2.1 导入数据集

我们使用pandas的read_csv方法读入数据集，并将一些城市的数据拿出来，因为读入以后date一列的数据格式不是pandas datatime，我们在这里做一个转换，方便后边绘图使用，因为数据集中还有一些其他空气质量指标例如pm2.5等，我们仅仅选取aqi作为关注重点形成新的数据帧 df

cities = ['上海', '北京', '杭州', '宁波', '保定', '南京', '苏州', '深圳', '厦门', '广州']
df = pd.read_csv('aqi_merged.csv')
df['date'] = pd.to_datetime(df['date'])
df = df.sort_values(by='date').reset_index(drop=true)
df = df[df['type']=='aqi']

我们的基础数据帧（dataframe）创建好以后，让我们来看一下它里边包含了什么数据，我们使用如下代码提取2019年的数据，并且在notebook中展示前5条记录。

df_2019_day = df[df['date']>='2019-01-01']
df_2019_day.head()

可以看出，在数据帧中，按照每一天为行，记录了当天几个城市的aqi值。

2.2 绘制图表

利用导入的数据，我们将绘制3张图表：

2019年上海，北京，深圳三地的每天aqi变化曲线（曲线图）
2019年上海，北京，深圳三地的每月平均aqi对比（柱状图）
2017年到2019年北京每月平均aqi对比（柱状图）

图表1：2019年上海，北京，深圳三地的每天aqi变化曲线

利用刚刚我们创建的df_2019_day数据帧，使用如下代码绘制图表，注意，我们使用了bokeh提供的columndatasource的方式来给bokeh图表传递数据。

简单说明一下：我们先使用figure创建了一个空的图画，然后用line方法画了上海的数据，然后重复line方法两次在图画上添加了另外两个城市的数据，最后，通过add_tools方法添加了一个鼠标悬停提示，用于显示鼠标位置的aqi值。

source = columndatasource(df_2019_day)

p = figure(x_axis_type="datetime", title="2019年aqi日均平均变化曲线", plot_width=900, plot_height=400)
p.line('date', '上海', line_color='blue', legend_label='上海', source=source)
p.line('date', '北京', line_color='green', legend_label='北京', source=source)
p.line('date', '深圳', line_color='orange', legend_label='深圳', source=source)

p.legend.location = "top_right"
p.add_tools(hovertool(tooltips=[("aqi", "$y")]))
    
show(p)

图表2：2019年上海，北京，深圳三地的每月平均aqi对比

我们想要画出每月平均aqi，而数据帧中包含的是每日的aqi，因此，利用dataframe的groupby方法，可以求得每月的平均值。并新建了一列month来存放月信息。最后通过head方法查看下我们获得的新的数据帧是否包含了按月平均的aqi信息。

pd.options.mode.chained_assignment = none
df_2019_day['month'] = df_2019_day['date'].apply(lambda x: x.strftime('%y-%m'))
df_2019_month = df_2019_day.groupby(by='month').mean().reset_index()
df_2019_month.head()

数据集处理结果符合我们的预期，接下来使用这个数据集绘制第二张图表。因为我们想要比较不同城市同一个月的aqi，因此我们的柱状图需要分组显示，这里使用了bokeh中的dodge方式，每一个dodge为一个城市的数据，并指明了在图表上的相对位置。

source = columndatasource(df_2019_month)

p = figure(x_range=list(df_2019_month['month']), title="2019年aqi", plot_width=900, plot_height=400)

p.vbar(x=dodge('month', -0.25, range=p.x_range), top='上海', width=0.2, color="#c9d9d3", legend_label="上海", source=source)
p.vbar(x=dodge('month', 0, range=p.x_range), top='北京', width=0.2, color="#718dbf", legend_label="北京", source=source)
p.vbar(x=dodge('month', 0.25, range=p.x_range), top='深圳', width=0.2, color="#e84d60", legend_label="深圳", source=source)

p.xgrid.grid_line_color = none
p.y_range.start = 0

p.add_tools(hovertool(tooltips=[("时间", "@month"), ("上海平均aqi", "@{上海}"), ("北京平均aqi", "@{北京}"), ("深圳平均aqi", "@{深圳}")]))

show(p)

图表3：2017年到2019年北京每月平均aqi对比

跟图表2 类似我们对数据帧进行必要的处理，同时因为我们要显示不同的年月的对比，所以讲年份和月份单独放置到year和month列中。

df['date_ym'] = df['date'].apply(lambda x: x.strftime('%y-%m'))
df_month = df.groupby(by='date_ym').mean().reset_index()
df_month['month'] = df_month['date_ym'].apply(lambda x: x.split('-')[-1])
df_month['year'] = df_month['date_ym'].apply(lambda x: x.split('-')[0])
df_month.head()

然后创建3个数据帧，每个仅包含一年的数据

df_2017 = df_month[df_month['year']=='2017'][['month', '北京']]
df_2018 = df_month[df_month['year']=='2018'][['month', '北京']]
df_2019 = df_month[df_month['year']=='2019'][['month', '北京']]

最后，还是通过相同的bokeh方法，绘制新的柱状图。

source_2017 = columndatasource(df_2017)
source_2018 = columndatasource(df_2018)
source_2019 = columndatasource(df_2019)

p = figure(x_range=list(df_2017['month']), title="2017-2019年北京aqi对比", plot_width=900, plot_height=400)

p.vbar(x=dodge('month', -0.25, range=p.x_range), top='北京', width=0.2, color="#c9d9d3", legend_label="2017", source=source_2017)
p.vbar(x=dodge('month', 0, range=p.x_range), top='北京', width=0.2, color="#718dbf", legend_label="2018", source=source_2018)
p.vbar(x=dodge('month', 0.25, range=p.x_range), top='北京', width=0.2, color="#e84d60", legend_label="2019", source=source_2019)

p.xgrid.grid_line_color = none
p.y_range.start = 0

p.add_tools(hovertool(tooltips=[("时间", "@month"), ("aqi", "@{北京}")]))

show(p)

到这里我们的3张图表已经准备好了，但是他们都是在notebook中运行的，后边我们将对这些代码进行简单的转化，并嵌入到bottle网页应用中。

3. bottle网页应用

bottle是一个超轻量级的python web框架，我们在本文中选择了bottle而没有选择flask或者django的原因就在于它的超轻量级，可以快速的搭建网页应用，对于以仅仅做数据展示为目的的网页应用，使用bottle可以让你快速上手，让你更专注于数据分析。

我们将采用bootstrap前端模板加bottle内置的模板引擎的方式来实现这个应用，为了快速实现这个目标，我们选取了这个项目作为我们的初始代码，所以，本文项目中使用到的网页应用代码99%的实现来自于这个项目，我们仅仅做了一点改动。在本节内容中，我们会讲解一下bottle应用的重点代码和概念。

本文对应的代码可以在这个仓库中找到。

3.1 文件夹结构

我们的bokeh-bottlepy项目目录结构如下，其中

dataset文件夹：包含了数据集csv文件
static文件夹：包含了bootstrap前端框架代码，包括css，javascript，以及fonts等，用于以bootstrap的主题来展现html页面
views文件夹中：包含我们要如何展示数据的模板，本项目作为入门项目，其中仅仅包含了一个index.tpl文件，作为我们仅有的一个单页面网页的模板，该模板会由bottle应用导入数据来渲染，最总形成用户看到的页面
app.py：为我们的入口文件，我们所有的python代码将在这个里边实现，最终运行也是通过：python app.py来启动服务
procfile：涉及到heroku部署，后边我们会提到

3.2 路由

用python web框架实现的是动态的网页，也就是说网页是在用户访问的时候生成的，路由这个概念对于第一次接触网页应用的人比较陌生，不过其实很简单，通俗的讲，用户在点击一个网页上的链接或按钮，或在浏览器地址栏中访问一个链接的时候，网页服务器端会根据链接的不同做不同的动作，并将结果组织成html并呈现给用户，这一个过程就是路由。

在bottle中实现路由其实就是给每一个url实现一个对应的处理方法。下边的代码就是本项目用到的所有相关的部分

dirname = '.'

app = bottle()
debug(true)

@app.route('/static/&lt;filename:re:.*\.css>')
def send_css(filename):
    return static_file(filename, root=dirname+'/static/asset/css')

@app.route('/static/&lt;filename:re:.*\.js>')
def send_js(filename):
    return static_file(filename, root=dirname+'/static/asset/js')

@app.route('/')
def index():
    data = {
            "developer_organization":"pythonlibrary.net"}
    return template('index', data = data)

所有bottle网页应用需要实例化一个bottle对像，作为服务本身，这里我们起名叫app，同时打开了debug模式，即当访问url的时候，bottle应用会打印一些调试信息辅助开发人员定位问题。

路由函数的指定是通过@app.route装饰器实现的，这个装饰器的参数就是相对url，例如index函数的路由地址为/，如果本地服务端口为8080，则绝对url为：http://localhost:8080/，用户在访问这个地址的时候index函数将会被调用，而它的返回值就是用户看到的页面，这里是使用了template方法来使用data数据渲染模板，模板的概念我们下一章节会进行介绍。

要做出一个漂亮的页面，需要使用到复杂的javascript和css，所幸的是我们选择的bootstrap框架为我们实现了这些复杂部分，我们只需要应用它提供的模组就可以搭建出一个漂亮的网站。

在html中，javascript和css也是通过url来访问到的，因此如果要使模板生效，需要告知bottle这些javascript和css需要从本地哪个路径中去找，代码中的send_css和send_js函数就是利用bottle 中的static_file函数来通知应用本地的资源在什么位置，而上边的路由地址则是用户访问网页的时候再html中的地址，因此这两个函数实现了，url和本地资源的连接。

3.3 模板实现

所有的python网页框架，在不使用前后端分离的方式开发网页应用的时候，都会包含一个模板的概念，这些框架大部分都继承了自己的模板引擎，bottle中也集成了一个他们称为simpletemplate的简单模板引擎，当然你可以选择使用其他第三方的模板引擎，如nijia2，mako等。

所谓模板引擎其实即使基于模板关键字的替换，引擎提供了一系列的语法，引擎可以解析这些语法，做出相应的动作，例如根据不同的情况填入不同的数据，做循环，判断等等，然后其余的内容将保持不变的放到输出中，可以通过python的stringtemplate来类比。

我们这个项目中，index.tpl就是模板，里边包含了simpletemplate可以识别的语法以及其他内容，当simpletemplate解析index.tpl总的语法，并填入合适的数据，则最终会得到完整的html内容，因此模板是 html + 引擎语法的集合，至于文件后缀tpl则无关紧要，可以使任何你定义的后缀，只是一般tpl代表template。

我们对原始代码的该文件进行一些修改：将head标签中的信息，按照我们的项目进行修改

<meta name="description" content="deploy bokeh data visualization with bottlepy">

<title>china aqi</title>

然后将导航条 navbar div按照我们的要求修改成我们自己的链接，将网页主体container中最上边的文字框改成我们的项目描述。

<div id="navbar" class="navbar-collapse collapse">
  <ul class="nav navbar-nav navbar-right">
  	<li><a href="../" rel="external nofollow"   >home</a></li>
  	<li><a href="https://github.com/pythonlibrary/bokeh-bottlepy" rel="external nofollow"  rel="external nofollow"  rel="external nofollow"       >on github</a></li>
  </ul>
</div><!--/.nav-collapse -->

<div class="row">
  <div class="jumbotron">
  <h2>中国aqi数据可视化</h2>
	  <p>这是一个基于bottlepy, bokeh和bootstrap的一个数据可视化部署的示例项目，采用了中国从2017年到2019年的aqi信息数据作为项目的演示数据。</p>
  </div>
</div>

回到app.py中，在这个文件中下边这段代码，通过template方法实现了对index模板的渲染，这个方法的参数data，将作为数据动态的传入到模板中，相对应的模板中有一个 {{data[“developer_organization”]}} 的语句，这就是模板语法，跟python语法类似，通过dict的方式访问了data变量中的developer_organization键对应的值。

@app.route('/')
def index():
    data = {
            "developer_organization":"pythonlibrary.net"}
    return template('index', data = data)

3.4 启动网页服务

我们在app.py实现了类似下边这样的入口，如果在终端中运行python app.py，这段代码将被执行，也就可以启动网页服务，服务的端口为8080，同时将host设置为0.0.0.0意思是其他电脑可以访问这台电脑上的服务，如果仅想本机本地访问可以设置为localhost

if __name__ == "__main__":
    port = 8080
    app.run(host="0.0.0.0", port=port, debug=true)

4. 将bokeh和bottle集成在一起

4.1 模板修改

首先我们想要在html中显示bokeh生成的图表，需要加载bokeh的javascript，通过在index.tpl中添加下边几个cdn的方式来导入。

<script src="https://cdn.bokeh.org/bokeh/release/bokeh-1.4.0.min.js"></script>
<script src="https://cdn.bokeh.org/bokeh/release/bokeh-widgets-1.4.0.min.js"></script>
<script src="https://cdn.bokeh.org/bokeh/release/bokeh-tables-1.4.0.min.js"></script>

然后我们要添加数据图表的占位符（相关的引擎语法代码），当进行模板渲染的时候，会被动态的替换为python代码中提供的内容。

在页面主体container中添加三个图表的占位符

注意：有别于其他数据传入语法，这里在data[“lot1_div”]前边有一个感叹号（！），这个非常重要，如果没有感叹号意味着，传入的数据将被认为是字符串，在渲染的时候会被引号括起来，而我们实际想要填充在这里的是html代码，而不是被双引号括起来的html代码，感叹号就是告知引擎，我们传入是的浏览器可以处理的html或者javascript或者css代码。

<div class="row">
  {{!data["plot1_div"]}}
</div>
</br></br></br></br>
<div class="row">
  {{!data["plot2_div"]}}
</div>
</br></br></br></br>
<div class="row">
  {{!data["plot3_div"]}}
</div>

在body标签后边添加绘制图表使用的javascript脚本占位符

{{!data["plot_script"]}}

这里模板中未来用到的图表div和javascript脚本将会由bokeh生成，并有bottle渲染，我们会在加下来这一章节说明。

4.2 python代码集成

将 2.2 章节中在notebook中调试成功的代码转换为函数，并实现到app.py中，注意原本在notebook中显示图表我们使用了show(p)的方法，在网页应用中我们仅仅是通过return p将图表对象返回，返回值将通过bottle提供的方法进行处理。

def get_df_from_source():
    ''' get dataframes from the source dataset, only take the data of some big cities
    '''
    cities = ['上海', '北京', '杭州', '宁波', '保定', '南京', '苏州', '深圳', '厦门', '广州']
    df = pd.read_csv(dirname+'/dataset/aqi_merged.csv')
    df['date'] = pd.to_datetime(df['date'])
    df = df.sort_values(by='date').reset_index(drop=true)
    df = df[df['type']=='aqi']
    return df

def draw_daily_aqi(mini_date, df):
    year = mini_date.split('-')[0]
    df_day = df[df['date']>=mini_date]
    source = columndatasource(df_day)

    p = figure(x_axis_type="datetime", title="{}年aqi日均平均变化曲线".format(year), plot_width=1150, plot_height=400)
    p.line('date', '上海', line_color='blue', legend_label='上海', source=source)
    p.line('date', '北京', line_color='green', legend_label='北京', source=source)
    p.line('date', '深圳', line_color='orange', legend_label='深圳', source=source)

    p.legend.location = "top_right"
    p.add_tools(hovertool(tooltips=[("aqi", "$y")]))

    return p
        
def draw_month_aqi(mini_date, df):
    year = mini_date.split('-')[0]
    df_day = df[df['date']>=mini_date]

    df_day['month'] = df_day['date'].apply(lambda x: x.strftime('%y-%m'))
    df_month = df_day.groupby(by='month').mean().reset_index()

    source = columndatasource(df_month)

    p = figure(x_range=list(df_month['month']), title="2019年aqi", plot_width=1150, plot_height=400)
    p.vbar(x=dodge('month', -0.25, range=p.x_range), top='上海', width=0.2, color="#c9d9d3", legend_label="上海", source=source)
    p.vbar(x=dodge('month', 0, range=p.x_range), top='北京', width=0.2, color="#718dbf", legend_label="北京", source=source)
    p.vbar(x=dodge('month', 0.25, range=p.x_range), top='深圳', width=0.2, color="#e84d60", legend_label="深圳", source=source)
    p.xgrid.grid_line_color = none
    p.y_range.start = 0
    p.add_tools(hovertool(tooltips=[("时间", "@month"), ("上海平均aqi", "@{上海}"), ("北京平均aqi", "@{北京}"), ("深圳平均aqi", "@{深圳}")]))
        
    return p

def draw_year_aqi(df):
    df['date_ym'] = df['date'].apply(lambda x: x.strftime('%y-%m'))
    df_month = df.groupby(by='date_ym').mean().reset_index()
    df_month['month'] = df_month['date_ym'].apply(lambda x: x.split('-')[-1])
    df_month['year'] = df_month['date_ym'].apply(lambda x: x.split('-')[0])

    df_2017 = df_month[df_month['year']=='2017'][['month', '北京']]
    df_2018 = df_month[df_month['year']=='2018'][['month', '北京']]
    df_2019 = df_month[df_month['year']=='2019'][['month', '北京']]

    source_2017 = columndatasource(df_2017)
    source_2018 = columndatasource(df_2018)
    source_2019 = columndatasource(df_2019)

    p = figure(x_range=list(df_2017['month']), title="2017-2019年北京aqi对比", plot_width=1150, plot_height=400)

    p.vbar(x=dodge('month', -0.25, range=p.x_range), top='北京', width=0.2, color="#c9d9d3", legend_label="2017", source=source_2017)
    p.vbar(x=dodge('month', 0, range=p.x_range), top='北京', width=0.2, color="#718dbf", legend_label="2018", source=source_2018)
    p.vbar(x=dodge('month', 0.25, range=p.x_range), top='北京', width=0.2, color="#e84d60", legend_label="2019", source=source_2019)

    p.xgrid.grid_line_color = none
    p.y_range.start = 0

    p.add_tools(hovertool(tooltips=[("时间", "@month"), ("aqi", "@{北京}")]))

    return p

三个绘图函数返回了图表对象p，我们如果能够让bottle来渲染图表对象，从而实现在网页中的图表展示呢？bokeh提供了一个components方法，可以接收图表对象作为参数，而返回绘图使用的javascript脚本和图表div，因此修改我们的index路由函数为：

@app.route('/')
def index():
    df = get_df_from_source()
    plot1 = draw_daily_aqi('2019-01-01', df=df)
    plot2 = draw_month_aqi('2019-01-01', df=df)
    plot3 = draw_year_aqi(df=df)
    plots_data = components((plot1, plot2, plot3))

    data = {
            "plot_script":plots_data[0],
            "plot1_div":plots_data[1][0],
            "plot2_div":plots_data[1][1],
            "plot3_div":plots_data[1][2],
            "developer_organization":"pythonlibrary.net"}
    return template('index', data = data)

在这里，index.tpl模板中的data字典中的plot1_div，plot2_div，plot3_div以及plot_script将被动态的渲染替换。最终实现了将图表展示在网页上的目的。

你可以clone本项目的仓库来尝试运行，或者直接访问来查看效果

5. 部署应用到heroku

这部分内容跟怎么将数据图表展示在网页上没有直接的关系，仅仅是一种可选的免费云服务，可以供你来共享你的页面，或者了解网页部署。但其实不同的服务可能部署的方式并不相同，因此如果你要部署你的网页到其他服务提供商，可能这里的知识完全不适用。

在heroku上用户可以免费部署有限的网络应用，同时过程也非常的简单，只需要实现一个procfile文件，heroku系统就知道怎么运行你的服务了。我们的项目中procfile使用如下代码，跟我们本地运行服务类似。

web: python app.py

而针对app.py的入口代码，需要将port改为从环境变量读取，因为heroku会动态的为应用分配端口，如果指定一个固定值，则会因为heroku没有打开其的对外访问，而导致用户无法访问该服务。

if __name__ == "__main__":
    port=int(os.environ.get("port", 8080))
    app.run(host="0.0.0.0", port=port, debug=true

最后用户可以在heroku页面上选择将github仓库和应用连接在一起，那么系统会自动的从github拉取最新代码然后启动服务。

6. 参考文档

黄山市民网：https://www.huangshanshimin.com/

目录