脚本中,导入了 cgi 和 http.client,这两个都是在 Python 的标准库中。你创建了一个 HTTPSConnection 对象并指定服务器,然后调用 .request() 和 .getresponse() 解析响应信息。
从响应信息中,我们解析到 Content-Type 头信息并且使用 cgi 模块提取页面编码的字符集。
cgi.parse_header()返回一个包括主要值和字典作为参数的元组。例如,Content-Type 头信息可能包含一个像 text/html; charset=ISO-8859-1 的值。
这个元组将字符串 text/html 作为第一个元素,第二个元素是 {‘charset’: ‘ISO-8859-1’} 这样形式的字典。因为你只需要关心 charset 参数,可以使用下划线忽略元组的开头:_, params = cgi.parse_header(content_type)。
注意:Python 中下划线的含义解释了如何从元组解包值。
对页面编码后,你可以阅读相应信息并解码到文本中。你可以在控制台中运行这个例子查看它是怎么工作的:
对于一个用于解析 页内容的小脚本来说,这看起来做的工作有点多。幸运的是,有一个 Python 的包可以简化 HTTP 请求并提供了一个友好地接口来实现你的期望。
你可以看到与上面类似的输出信息。你可以使用 pip 以及 install 命令,其后跟着你想要安装的包名。pip 会在 PyPI 中查找这个包,计算其依赖关系,安装并确保 requests 正常工作。
你还可以看到当前环境下 pip 的版本是 18.1,但是还有 19.0.1 版本可用。它还显示了用于升级 pip 的命令,所以我们来试一下:
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树预备知识模块管理208119 人正在系统学习中 相关资源:旅行家航旅行程信息打印软件-旅游工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!