python3爬取视频原理_Python3爬虫实战：以爬取豆瓣电影为例

爬虫获取页信息和人工获取信息，其实原理是一致的。

如我们要获取电影的“评分”信息

python中用于爬虫的包很多，如bs4，urllib，requests等等。这里我们用requests xpath的方式，因为简单易学，像BeautifulSoup还是有点难的。

下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。

安装requests和lxml库：pip install requests

pip install lxml

一、导入模块#-*- coding:utf-8 -*-

import requests

from lxml import etree

import time #这里导入时间模块，以免豆瓣封你IP

二、获取豆瓣电影目标页并解析

爬取豆瓣电影《神秘巨星》上的一些信息，地址

https://movie.douban.com/subject/26942674/om=showing

目前，我们只需要掌握最常用的requests.get()方法就好了。

requests.get()的使用方法import requests

url = ‘https://www.baidu.com’

data = requests.get(url)#使用get方法发送请求，返回汗页数据的Response并存储到对象data 中

Repsonse对象的属性：

data.status_code：http请求的返回状态，200表示连接成功；

data.text：返回对象的文本内容；

data.content：猜测返回对象的二进制形式；

data.encoding：返回对象的编码方式；

data.apparent_encoding：响应内容编码方式。

众多python培训视频，尽在python学习，欢迎在线学习！

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib214850 人正在系统学习中相关资源：斯维尔软件

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！