文章目录
- 0 前言
- 1 课题背景
- 2 项目效果展示
-
- 2.1 主界面展示
- 2.2电影数据查询
- 2.3可视化展示
- 3 数据爬取
-
- 3.1 Requests
- 3.2 bs4
- 3.3 MySQL数据库
- 4 可视化技术
-
- 4.1 Flask
- 4.2 ECharts
- 4.3 补充:不做成web系统
- 5 最后
0 前言
Hi,大家好,这里是丹成学长的毕设系列文章!
对毕设有任何疑问都可以问学长哦!
为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的新项目是
基于大数据的电影数据爬取分析可视化系统
学长这里给一个题目综合评分(每项满分5分)
- 难度系数:4分
- 工作量:4分
- 创新点:3分
选题指导, 项目分享:
https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md
1 课题背景
随着互联 的快速发展,越来越多的人喜欢在微博、知乎、豆瓣等 交 站上发表自己对某些事物的想法、态度或意见。用户同时也会将自己购买的产品或体验到的服务,在这些 区式的 站上评价,这样通常会带动他人也前去购买或体验,形成口碑效应。
交应用及 站上有源源不断的信息发布,这些信息中隐含着大量对我们及企业有收集价值的资源。就像用户评分和评价系统中,用户不但会对作品进行评比,还分享和传播了作品信息。如果能够获取这些数据并对其进行分析,可以让人们挑选到满意的书籍、选择出一部精彩的电影,也可以帮助企业改进产品的服务等。使用爬虫程序可以高效地对 交 站上的信息进行收集、组织和管理。豆瓣 作为 交 站的代表,提供了在图书、电影和音乐等方面独树一帜的评分、推荐及比价体系,在 交 络中产生了深远的影响。
2 项目效果展示
2.1 主界面展示
2.3可视化展示
- 电影类型矩形图:可以清楚的看到剧情,纪录片,喜剧类型的电影所占比重较大。
- 上映年份分布、电影评分分布图。
- 时间轴图:可随年份动态变化效果。
- 频数统计词云图:可根据主演、导演、编剧和电影排名生成相应的词云图
bs4即BeautifulSoup,是python种的一个库,最主要的内容就是从 页中抓取数据。
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
3.3 MySQL数据库
利用Pymysql,将爬取到的数据存入数据库中,相关代码如下:
4 可视化技术
4.1 Flask
Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比,Flask的灵活性、轻便性和安全性更高,而且容易上手,它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性,开发者可以依据实际需要增加相应的功能,在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现 站定制的个性化,从而开发出功能强大的 站。
本项目在Flask开发后端时,前端请求会遇到跨域的问题,解决该问题有修改数据类型为jsonp,采用GET方法,或者在Flask端加上响应头等方式,在此使用安装Flask-CORS库的方式解决跨域问题。此外需要安装请求库axios。
部分相关代码:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!