2.6 HTTP信息头

HTTP信息头,也称为头字段或者首部,是构成HTTP 文的要素之一,具有传递额外重要信息的作用。HTTP信息头通常包括4类,通用头、请求头、响应头和实体头。其中,请求头和响应头分别只在请求信息和响应信息中出现,而通用头和实体头在请求信息和响应信息中都可出现。只有在消息中包含实体数据时,实体头才会出现。HTTP信息头是由头字段和字段值组成的,如下图所示。

2.6 HTTP信息头
1.通用头
通用头既可以在请求信息中出现也可以在响应信息中出现,其提供了与 文相关的基本信息。下面列出了HTTP通用头的字段名称及其功能。
Cache-Control:请求和响应遵循的缓存机制。
Connection:客户端和服务器指定与请求或响应连接有关的选项,例如是否需要持久连接。
Date:创建HTTP 文的时间,即信息发送时间。
Pragma:包含用来实现特定的指令,通常和no-cache使用。
Trailer:表明以chunked编码传输的 文实体数据尾部存在的字段。
Transfer-Encoding:规定了传输 文实体数据采用的编码方法。
Upgrade:检测HTTP协议,允许服务器指定一种新的协议。
Via:追踪客户端与服务器之间的请求 文和响应 文的传输路径。
Warning:告知用户与缓存相关的警告。

2.请求头
请求头是从客户端向服务器发送请求 文时所用的字段。服务器根据请求的头信息,为客户端提供响应。在 络爬虫采集数据时,为了更好地模拟浏览器访问服务器,经常需要设置一些请求头信息,比如添加多个不同的User-Agent。下面列出了HTTP请求头的字段名称及其功能。
Accept:指定客户端可以处理数据的类型。
Accept-Charset:指定客户端可以接收的字符集。
Accept-Encoding:指定浏览器能够进行解码的数据编码格式。
Accept-Language:指定浏览器可接收的语言种类。
Cookie:客户端发送请求时,会把保存在该请求域名下的所有cookie值一起发送给服务器。
Host:指定请求的服务器的域名和端口 ,不包括协议。
Origin:指定请求的服务器名称,包括协议和域名。
Referer:告知服务器请求的原始资源的URL,包括协议、域名和端口等信息。
Upgrade-Insecure-Request:向服务器发送一个信 ,表示客户对加密和认证响应的偏好。
User-Agent:发起请求的应有程序名称。

3.响应头
响应头是从服务器端向客户端发送响应 文时所用的字段。下面列出了HTTP响应头的字段名称及其功能。
Accept-Ranges:指定服务器对资源请求的可接受范围类型,字段的值定义了范围类型的单位。
Age:服务器产生响应经过的时间,单位是秒,为非负整数,主要用于缓存。
Set-Cookie:用来由服务器向客户端发送cookie。
Server:指明服务器软件以及版本 。
Vary:告知代理是使用缓存来响应还是从源服务器中重新请求资源。

4.实体头
请求 文和响应 文中经常包含一些实体数据,如浏览器采用POST提交的表单数据、服务器返回给浏览器的 页数据。实体头提供了大量的有关实体数据的信息,包括实体数据的类型、长度和压缩方法等。下面列出了HTTP实体头的字段名称及其功能。
Allow:列出资源所支持的HTTP方法集合。
Content-Encoding:告知客户端服务器对实体数据的编码方式。
Content-Language:告知客户端实体数据使用的语言类型。
Content-Length:实体数据的长度。
Content-Location:实体数据的资源位置。
Content-Range:当前传输的实体数据在整个资源中的字节范围。
Content-Type:实体数据的类型, 络爬虫中经常解析的数据类型是HTML、XML和JSON。
Expires:实体数据的有效期。
Last-Modified:实体数据上次被修改的日期以及时间。

文章知识点与官方知识档案匹配,可进一步学习相关知识 络技能树首页概览23034 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年5月27日
下一篇 2020年5月27日

相关推荐