python 爬手机 _【Python爬虫】手机段爬虫

2021年1月2日上午4:16 • 软件工具

整体爬虫逻辑：

1.获取省份和城市的定位，然后定位出各个城市和相对应的url

2.获取到 130 xx 段 (共317个)中的xxx个

爬虫结果

关于定位的问题：

1. infos=select.xpath(‘//div[@class=”fkce”]/div[@class=”fkt”][position()>1]’)

2. city_infos = zip(citys, city_urls) #把city是，和city_urls返回一个元祖，再去取里面的值

城市的获取

在循环中元祖中选出城市与相对应的url打印出来

WX20170904-170305@2x.png

4. first_3 = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/span[@class=”nums”]/text()’%str(i+2))[0] # 码段前三位

用到了【】方法

5. types = selector.xpath(‘//div[@class=”all”]/div[%s]/div[1]/text()’ % str(i + 2))[0] #xx 段 (共xxx个)

mobiles = selector.xpath(‘//div[@class=”all”]/ul[%s]/li/a/text()’ % str(i + 1)) # 码段内的码

6. type1=types.split(” “)[0] #获取xx 段 (共xxx个)中xx 段

total = types.split(‘ ‘)[1].replace(‘(共’, ”).replace(‘个)’, ”) #获取(共xxx个)中的xxx

3867c046269f

最后把获取的连接到一起打印出来

for mobile in mobiles:

print(province, city, first_3, type1, total, mobile)

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211375 人正在系统学习中相关资源：开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

python 小老鼠_自学Python效率低？“小老鼠编程”来帮你

上一篇 2021年1月2日

python 爬虫爬不出来_Python爬虫经常爬不到数据？或许你可以看一下这篇文章

下一篇 2021年1月2日