Python-爬取HTML 页数据
软件环境
- Mac 10.13.1 (17B1003)
- Python 2.7.10
- VSCode 1.18.1
摘要
Beautiful Soup 介绍
Beautiful Soup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。
Beautiful Soup 官方中文文档
特点
- 简单:它是一个工具箱,通过解析文档为用户提供需要抓取的数据
- Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
Beautiful Soup 的安装
- 安装 pip (如果需要):
- 安装 Beautiful Soup:
示例
确定获取数据范围
本示例是获取项目列表,打开Chrome的调试栏,找到对应的位置,如下图:
- urlopen(url, data, timeout)
- url: 请求的 URL
- data: 访问 URL 时要传送的数据
- timeout: 超时时间
- HttpUtils.build_opener(httphandler, httpshandler)
- 开启日志,将会在调试控制台输出 络请求日志,方便调试
- 必要的 try-catch,以便可以捕获到 络异常
解析获取的数据
创建BeautifulSoup对象
获取待遍历的对象
遍历子节点,解析并获取所需参数
输出解析结果,如下:

TIPS
- 解析html代码,主要是运用了BeautifulSoup的几大对象,Tag、NavigableString、BeautifulSoup、Comment,可以参考Beautiful Soup 官方中文文档
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
- http://www.jianshu.com/p/972c95610fdc
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208102 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!