Python-爬取HTML 页数据

2022年1月8日下午1:51 • 软件开发

Python-爬取HTML 页数据

软件环境

Beautiful Soup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。

本示例是获取项目列表，打开Chrome的调试栏，找到对应的位置，如下图：

urlopen(url, data, timeout)
- url: 请求的 URL
- data: 访问 URL 时要传送的数据
- timeout: 超时时间
HttpUtils.build_opener(httphandler, httpshandler)
- 开启日志，将会在调试控制台输出络请求日志，方便调试
必要的 try-catch，以便可以捕获到络异常

解析html代码，主要是运用了BeautifulSoup的几大对象，Tag、NavigableString、BeautifulSoup、Comment，可以参考Beautiful Soup 官方中文文档

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览208102 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！