这是一篇记录自己踩坑的文章
爬取 页分三大步骤:
- 分析目标 站
- 着手编写代码
- 保存数据
下面开始今天的主题。上目标 站(66免费代理)
首先分析 页,我们要爬取的是ip和端口
所有数据都存在表格里
查看 页源码,发现数据直接在源码中,因此开始接下来的操作,提取数据,使用BeautifulSoup解析。
先拿到每一页上的所有行,再提取每一个单元格中的内容,相信见代码
经过一番操作,成功获取数据,后面就是比较糟糕的事情了。我们爬取代理ip的主要目的是什么,当然是使用他们呀。在我校验之后,一万多个代理ip没有一个能用的。
后面多寻找几个 站试试,今天 就先到这里。我是爬虫小白,今后也是
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!