爬虫获取 页信息和人工获取信息,其实原理是一致的。
如我们要获取电影的“评分”信息
python中用于爬虫的包很多,如bs4,urllib,requests等等。这里我们用requests xpath的方式,因为简单易学,像BeautifulSoup还是有点难的。
下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。
安装requests和lxml库:pip install requests
pip install lxml
一、导入模块#-*- coding:utf-8 -*-
import requests
from lxml import etree
import time #这里导入时间模块,以免豆瓣封你IP
二、获取豆瓣电影目标 页并解析
爬取豆瓣电影《神秘巨星》上的一些信息,地址
https://movie.douban.com/subject/26942674/om=showing
目前,我们只需要掌握最常用的requests.get()方法就好了。
requests.get()的使用方法import requests
url = ‘https://www.baidu.com’
data = requests.get(url)#使用get方法发送请求,返回汗 页数据的Response并存储到对象data 中
Repsonse对象的属性:
data.status_code:http请求的返回状态,200表示连接成功;
data.text:返回对象的文本内容;
data.content:猜测返回对象的二进制形式;
data.encoding:返回对象的编码方式;
data.apparent_encoding:响应内容编码方式。
众多python培训视频,尽在python学习 ,欢迎在线学习!
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib214850 人正在系统学习中 相关资源:斯维尔软件
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!