整体爬虫逻辑:
1.获取省份和城市的定位,然后定位出各个城市和相对应的url
2.获取到 130 xx 段 (共317个)中的xxx个
爬虫结果
关于定位的问题:
1. infos=select.xpath(‘//div[@class=”fkce”]/div[@class=”fkt”][position()>1]’)
2. city_infos = zip(citys, city_urls) #把city是,和city_urls返回一个元祖,再去取里面的值
城市的获取
在循环中元祖中选出城市与相对应的url打印出来
WX20170904-170305@2x.png
4. first_3 = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/span[@class=”nums”]/text()’%str(i+2))[0] # 码段前三位
用到了【 】方法
5. types = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/text()’ % str(i + 2))[0] #xx 段 (共xxx个)
mobiles = selector.xpath(‘//div[@class=”all”]/ul[%s]/li/a/text()’ % str(i + 1)) # 码段内的 码
6. type1=types.split(” “)[0] #获取xx 段 (共xxx个)中xx 段
total = types.split(‘ ‘)[1].replace(‘(共’, ”).replace(‘个)’, ”) #获取(共xxx个)中的xxx

最后把获取的连接到一起打印出来
for mobile in mobiles:
print(province, city, first_3, type1, total, mobile)
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211375 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!