文章目录
- 一、写在前面
- 二、准备工作
-
- 1、使用的软件
- 2、使用的模块
- 3、爬虫思路
-
- 1. 明确需求
- 2. 发送请求 (开发者工具里面headers)
- 3. 获取数据
- 4. 解析数据
- 5. 保存数据
- 三、代码解析
-
- 1、导入模块
- 2、创建文件
- 3、获取数据
- 4、解析数据
- 5、写入数据
- 6、输出数据
- 四、写在最后
一、写在前面
好不容易女神喊我去看电影,但是她问我准备看什么,那我不得好好准备准备~
2、使用的模块
- requests >>> 数据请求模块 pip install requests
- parsel >>> 数据解析模块 pipinstall parsel
三、代码解析
1、导入模块
导入一下我们需要用到的模块
2、创建文件
快速批量替换 全选内容 使用正则表达式 替换内容
3、获取数据
4、解析数据
5、写入数据
6、输出数据
所有代码
所有代码我就没写到目录里面,奖励给全部看完的你,不然有些人看到目录就直接点过来看全部代码了,哈哈~

import requests import parsel import csv f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='') csv_writer = csv.DictWriter(f, fieldnames=[ '电影名字', '导演', '主演', '年份', '国家', '电影类型', '评论人数', '评分', '概述', '详情页',])csv_writer.writeheader()for page in range(0, 250, 25): url = f'https://movie.douban.com/top250tart={page}&filter=' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36' } response = requests.get(url=url, headers=headers) selector = parsel.Selector(response.text) lis = selector.css('.grid_view li') # css选择器语法 for li in lis:try: title = li.css('.hd a span:nth-child(1)::text').get() href = li.css('.hd a::attr(href)').get() # 详情页 move_info = li.css('.bd p::text').getall() actor_list = move_info[0].strip().split(' ') # 列表索引位置取值 date_list = move_info[1].strip().split('/') # 列表索引位置取值 director = actor_list[0].replace('导演: '声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!