【爬取动态页面的数据】
更新:已上传到我的GitHub上,点击打开链接
上一次讲到用工具对动态页面进行数据爬取,但是感觉难度不小,而且运行效率简直低下。。。
于是乎从 上查资料,有好多说可以通过获取 站的json数据来进行动态页面爬取,然后我就找到气象数据权威——中央气象台的官 (http://www.nmc.cn/),开始数据的爬取。
然后怎么去找这个json数据呢台开着抓包软件Fiddler的情况下,我打开了北京的天气的页面(http://www.nmc.cn/publish/forecast/ABJ/beijing.html)。。。后台抓包如下图:
然后发现json文件还不少。。突然点开了第二个,就是那个/f/rest/real/54511149…的,发现了真相……
我天,数据都在这里啊,第一个是数据更新时间,第二个是城市信息,第三个是预警信息(没有的话都是9999),第四个是天气信息,第五个是风的信息。
然后根据这个的url开始试验,发现主要变化的是/f/rest/real/54511的54511,当城市变化的时候这串数也会变,且跟问好后面的好像没什么太大关系,把全部url(http://www.nmc.cn/f/rest/real/54511)复制粘贴到浏览器中访问。也可以得到数据。好了,确定url就是它了。然后改变后面的数字串就可以了。
代码放上:
pycharm运行结果:
【总结】对于我这种急性子来说,通过这种方式获取数据终于可以马上获得数据了,不用再一个一个等了(还容易出异常……)!!
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫动态渲染页面爬取211385 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!