用Python爬取了上万部电影的排名，周末周末好带女神一起去

2021年11月6日下午1:49 • 行业观察

文章目录

一、写在前面
二、准备工作
- 1、使用的软件
- 2、使用的模块
- 3、爬虫思路
- - 1. 明确需求
  - 2. 发送请求 (开发者工具里面headers)
  - 3. 获取数据
  - 4. 解析数据
  - 5. 保存数据
三、代码解析
- 1、导入模块
- 2、创建文件
- 3、获取数据
- 4、解析数据
- 5、写入数据
- 6、输出数据
四、写在最后

一、写在前面

好不容易女神喊我去看电影，但是她问我准备看什么，那我不得好好准备准备~

2、使用的模块

requests >>> 数据请求模块 pip install requests
parsel >>> 数据解析模块 pipinstall parsel

三、代码解析

1、导入模块

导入一下我们需要用到的模块

2、创建文件

快速批量替换全选内容使用正则表达式替换内容

3、获取数据

4、解析数据

5、写入数据

6、输出数据

所有代码

所有代码我就没写到目录里面，奖励给全部看完的你，不然有些人看到目录就直接点过来看全部代码了，哈哈~

用Python爬取了上万部电影的排名，周末周末好带女神一起去

import requests  import parsel  import csv  f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')  csv_writer = csv.DictWriter(f, fieldnames=[    '电影名字',    '导演',    '主演',    '年份',    '国家',    '电影类型',    '评论人数',    '评分',    '概述',    '详情页',])csv_writer.writeheader()for page in range(0, 250, 25):    url = f'https://movie.douban.com/top250tart={page}&filter='    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'    }    response = requests.get(url=url, headers=headers)    selector = parsel.Selector(response.text)    lis = selector.css('.grid_view li')  # css选择器语法    for li in lis:try:    title = li.css('.hd a span:nth-child(1)::text').get()    href = li.css('.hd a::attr(href)').get()  # 详情页    move_info = li.css('.bd p::text').getall()    actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值    date_list = move_info[1].strip().split('/')  # 列表索引位置取值    director = actor_list[0].replace('导演: '声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

服装免费收银系统哪个好-云上铺会员管理软件

上一篇 2021年11月6日

防伪码查询溯源小程序开发

下一篇 2021年11月6日