爬虫软件爬取公开 络数据案例(以大众点评为例)

原文地址:http://blog.csdn.net/qq_34149805/article/details/69367578

大数据在规划行业被炒的热火朝天,但是大多数人还是处于不知所以然的程度,应用于日常和工作更是遥遥无期。

关键的大数据被互联 巨头、手机运营商、政府机构所垄断,获取难之又难。

再看 上免费的数据接口,比如聚合数据,阿里数据,大部分都是收费的,想用于非商业的研究用途,大部分人还是用不起的。

所以,想要获取有质量并且还要保证数量的数据就要靠我们自己了。

当然如果编程能力强的话可以自己写程序来爬取,我这里就偷个懒,直接用人家写好的了。。。

这里我使用的是火车采集器的免费版,我以爬取大众点评的数据为例。

下面是我爬取到的一些数据

我们观察每个部分的分布位置,会缩小我们的爬取范围,加快爬取速度。

二、 址采集

打开火车采集器软件。

新建任务。

所以,我们要想办法到达这个页面!

这里我选择分商业区进行爬取(这样可以细化数据,还可以根据行政区,商户类型,甚至不选择条件进爬取)

我们选择一个商业区作为起始爬取地址。

我们会发现,这个页面上有15个商户!

将页码设置成地址参数,选择从2开始,每次递增1次,共14项。

我们在下面的阅览就能看到我们想看到的链接。

点击 址采集测试,就会得到以下的结果:

经度


 位置信息

口味


 人均消费


测试成功!

四、内容发布

内容发布就是将采集好的数据导出来,这里免费版的只支持导出到txt。

为了转成excel方便,我们设置如下规则:

标签建均以英文逗 分隔,每一条数据加一个换行。

基本设置完成,点击右下角保存并退出。

开始数据采集并导出!

看起来杂乱无章,也不方便使用,所以我们将它保存成excel

打开excel,点击打开文件,选择所有文件,找到我们的txt

选择 分隔符 >> 逗 分隔

点击完成,就得到我们想要的数据格式!

这里写图片描述

有了这些数据,我们就可以开始我们的数据可视化之旅了!

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年2月11日
下一篇 2018年2月11日

相关推荐