http://blog.csdn.net/pipisorry/article/details/47948065
实战1:使用cookie登录哈工大ACM 站
获取 站登录地址
http://acm.hit.edu.cn/hoj/system/login
查看要传送的post数据
user和password
Code:
Note:
1. 直接open http://acm.hit.edu.cn/hoj/problem/solution/roblem=1页面不知道去哪了,根本不是直接用浏览器登录后的界面!用cookie登录就可以正常访问,html代码中会有一句话you have not solved this problem,因为我没做这道题。
2. 原理:创建一个带有cookie的opener,在访问登录的URL时,将登录后的cookie保存下来,然后利用这个cookie来访问其他 址。查看登录之后才能看到的信息。[python 3.3.2 爬虫记录]
重复使用cookie登录
上面代码中我们保存cookie到文件中了,下面我们可以直接从文件导入cookie进行登录,不用再构建包含用户名和密码的postdata了
皮皮Blog
实战2:使用cookie登录伯乐在线
获取 站登录地址
1. chrome浏览器中按F12审查元素 > Network > Headers > General > Request URL: http://www.jobbole.com/login/edirect=http://www.jobbole.com/
然而这个并不是其真实 站登录 址^-^
下面是登录后看到的request中有webforms的信息对应的 址是也就是其真实 站登录 址http://www.jobbole.com/wp-admin/admin-ajax.php
查看headers信息
如果不自己添加headers信息中的User-Agent,python代码登录时会默认使用User-Agent: Python-urllib/3.4
我们在chrome浏览器中按F12审查元素 > Network > Headers中可以看到User-Agent应该设置为:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36′
一般要添加的headers信息有:
登录后查看request headers
发现cookie发生了变化,加上了用户名***和密码*************
Note: 1. cookie登录不成功则会输出: Name = wordpress_test_cookie Value = WP+Cookie+check 这个就说明之前根本没有登录成功,主要是真实登录地址不对!
2. cookie登录成功时会输出:
Name = wordpress_0efdf49af511fd88681529ef8c2e5fbf
Value = *****%***%*******************(value中会包含账户和密码)
并且jobbole_response.read()输出中存在“个人主页”“退出登录”字样,就说明登录成功了,否则只会有“登录”“注册”之类的字符串。
使用刚刚保存的cook_jar.txt文件登录参见[python爬虫 – Urllib库及cookie的使用 – 从文件中获取Cookie并访问]
皮皮Blog
实战3:使用cookie登录知乎
目前知乎采用动态验证码破解还没验证,这样post里面还需要captcha的参数。待定。。。
Note:这个_xsrf其实可以不submit,它已经作为cookie写进去了。可以看看登入www.zhihu.com的返回的header。
皮皮Blog
实战4:使用cookie登录本科 站爬取成绩信息
注意这个 站是https的 站,不过和上面的cookie登录的http 站一样登录。登录的是电子科大门户(因为小编就是UESTC的嘛)
获取本科 站登录地址
1. chrome浏览器中按F12审查元素 > Network > Headers > General > Request URL:https://uis.uestc.edu.cn/amserver/UI/Login
可以看到其真实 站登录 址为https://uis.uestc.edu.cn/amserver/UI/Login
2. 当然也可以用fiddler抓取https的请求,不过要配置一下:Tools > fiddler options > https > capture…和decrypt都打√ > 然后根据提示安装一证书yes就可以了
查看要传送的post数据
打开fiddler
代码
小编已gui,里面什么也没了,显示没有信息!楼主毕业了的T^T
[pyQuery语法來操作解析 HTML 文档解析教学 页]
[ 计算大学本学期绩点]
from:http://blog.csdn.net/pipisorry/article/details/47948065
ref:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!