Python爬虫+数据分析+数据可视化实战

1. 背景介绍

哔哩哔哩（www.bilibili.com，英文名称：bilibili，简称B站）现为中国年轻世代高度聚集的文化区和视频平台，该站于2009年6月26日创建。

bangumi（bangumi番组计划，bangumi.tv）是专注于ACG领域的站，是国内专业的动画评分站。该站可看作动画作品的数据库，拥有万余部动画作品的详细数据，包括集数、播放时间、监督以及评分、评分人数等信息等可供分析。

首先打开bangumi首页，并登录。登录后刷新页面，并用fiddler抓包，获取请求头：

获得对应的源代码位置后，便可以用beautifulsoup包对页html进行解析获取数据了。

目前的问题是如何获取尽量多的作品数据。

根据页地址，访问某部作品的页面应为(后面的数字称为subject )，所以可以从1开始遍历所有的subject ，这理论上可行，但实际操作中发现了两个问题，一是subject 目前超过20万，全部遍历所需时间太长；二是并不是所有作品都是动画作品，还可能是书籍、音乐、游戏等：

所以必须找到其他方法。注意到bangumi作为评分站具有排行榜功能：

不需通过ajax请求获取某段排行的数据，这对于爬虫是非常友好的。

考虑到能上榜的作品都具有一定人气，并且只有评分人数达到一定数量评分才更有代表性，所以决定按照排行榜爬取这5800多部动画作品subject ，再访问各自的页面获取详细信息。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！