机器学习笔记-python爬虫（1）——爬取简单界面

用途：通过本案例学习可以了解到简单单一页界面的爬取，但对于动态页或页页采集等功能需要借助下一节的UA伪装来实现

案例：通过爬虫爬出搜狗搜索的初始页面数据，并将其页面数据持久化储存

工具：python requests包（requests能够让你轻易地发送HTTP请求，这可库使用简单，功能完善。）

前提知识：页的url及其获取方法、requests请求方式、页面源代码形式

一、页的url及其获取方法

url：URL是统一资源定位符，对可以从互联上得到的资源的位置和访问方法的一种简洁的表示，是互联上标准资源的地址。它不仅可用来定位络上信息资源的地址，也可用来定位本地系统要访问的文件。

页url获取方法：

1、找到想要读取的站，右键选择检查打开开发者界面。

2、选择络，刷新一次页，找到url。

二、requests请求方式

通过开发者界面找到该页的请求方式，选择合适的请求方式，因为这里采用get请求，所以我们使用requests.get()命令。

三、页面源代码形式

通过开发者界面找到Content-Type,可知内容的类型为text/html，所以我们使用 .text，返回字符串形式的响应数据。

步骤：

一、导入requests包

二、指定所要爬取页界面的url

三、通过get方式获得页的响应

四、响应数据，以text形式进行输出

五、将返回数据储存在.HTML文件中，并给出结束反馈

运行结果：

代码：

文章知识点与官方知识档案匹配，可进一步学习相关知识OpenCV技能树首页概览11173 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！