python 爬手机 _【Python爬虫】手机 段爬虫

整体爬虫逻辑:

1.获取省份和城市的定位,然后定位出各个城市和相对应的url

2.获取到 130 xx 段 (共317个)中的xxx个

爬虫结果

关于定位的问题:

1. infos=select.xpath(‘//div[@class=”fkce”]/div[@class=”fkt”][position()>1]’)

2. city_infos = zip(citys, city_urls) #把city是,和city_urls返回一个元祖,再去取里面的值

城市的获取

在循环中元祖中选出城市与相对应的url打印出来

WX20170904-170305@2x.png

4. first_3 = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/span[@class=”nums”]/text()’%str(i+2))[0] # 码段前三位

用到了【 】方法

5. types = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/text()’ % str(i + 2))[0] #xx 段 (共xxx个)

mobiles = selector.xpath(‘//div[@class=”all”]/ul[%s]/li/a/text()’ % str(i + 1)) # 码段内的 码

6. type1=types.split(” “)[0] #获取xx 段 (共xxx个)中xx 段

total = types.split(‘ ‘)[1].replace(‘(共’, ”).replace(‘个)’, ”) #获取(共xxx个)中的xxx

3867c046269f

最后把获取的连接到一起打印出来

for mobile in mobiles:

print(province, city, first_3, type1, total, mobile)

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211375 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月2日
下一篇 2021年1月2日

相关推荐