豆瓣电影 数据可视化

    电影原始数据来自豆瓣电影,使用python的urllib2包爬取数据、BeautifulSoup包完成解析,并且进行数据的预处理和清洗。
    最终一共获取了4587条电影记录,每条记录包含以下15个字段:电影ID、标题、链接、缩略图、评分、导演、编剧、演员、分类、上映国家、语言、上映时间、时长、别名和简介
    在此基础上,使用Echarts进行简单的数据可视化,从而完整地展示网络数据采集、存储、处理和使用四个环节所涉及的技术链。

主要技术简介

urllib2概述

urllib2模块定义的函数和类用来获取URL(主要是HTTP的),他提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等。

Beautiful Soup的简介

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

ECharts特性

ECharts,一个纯 Javascript 的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。