【毕业设计】大数据电影数据分析可视化系统 – python 爬虫

文章目录

  • 0 前言
  • 1 课题背景
  • 2 项目效果展示
    • 2.1 主界面展示
    • 2.2电影数据查询
    • 2.3可视化展示
  • 3 数据爬取
    • 3.1 Requests
    • 3.2 bs4
    • 3.3 MySQL数据库
  • 4 可视化技术
    • 4.1 Flask
    • 4.2 ECharts
    • 4.3 补充:不做成web系统
  • 5 最后

0 前言

Hi,大家好,这里是丹成学长的毕设系列文章!

对毕设有任何疑问都可以问学长哦!

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的新项目是

基于大数据的电影数据爬取分析可视化系统

学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:4分
  • 工作量:4分
  • 创新点:3分

选题指导, 项目分享:

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md


1 课题背景

随着互联 的快速发展,越来越多的人喜欢在微博、知乎、豆瓣等 交 站上发表自己对某些事物的想法、态度或意见。用户同时也会将自己购买的产品或体验到的服务,在这些 区式的 站上评价,这样通常会带动他人也前去购买或体验,形成口碑效应。

交应用及 站上有源源不断的信息发布,这些信息中隐含着大量对我们及企业有收集价值的资源。就像用户评分和评价系统中,用户不但会对作品进行评比,还分享和传播了作品信息。如果能够获取这些数据并对其进行分析,可以让人们挑选到满意的书籍、选择出一部精彩的电影,也可以帮助企业改进产品的服务等。使用爬虫程序可以高效地对 交 站上的信息进行收集、组织和管理。豆瓣 作为 交 站的代表,提供了在图书、电影和音乐等方面独树一帜的评分、推荐及比价体系,在 交 络中产生了深远的影响。

2 项目效果展示

2.1 主界面展示

2.3可视化展示

  • 电影类型矩形图:可以清楚的看到剧情,纪录片,喜剧类型的电影所占比重较大。

  • 上映年份分布、电影评分分布图。

  • 时间轴图:可随年份动态变化效果。

  • 频数统计词云图:可根据主演、导演、编剧和电影排名生成相应的词云图

bs4即BeautifulSoup,是python种的一个库,最主要的内容就是从 页中抓取数据。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

3.3 MySQL数据库

利用Pymysql,将爬取到的数据存入数据库中,相关代码如下:

4 可视化技术

4.1 Flask

Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比,Flask的灵活性、轻便性和安全性更高,而且容易上手,它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性,开发者可以依据实际需要增加相应的功能,在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现 站定制的个性化,从而开发出功能强大的 站。

本项目在Flask开发后端时,前端请求会遇到跨域的问题,解决该问题有修改数据类型为jsonp,采用GET方法,或者在Flask端加上响应头等方式,在此使用安装Flask-CORS库的方式解决跨域问题。此外需要安装请求库axios。

部分相关代码:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月2日
下一篇 2022年10月2日

相关推荐