以前一直以为只有Python可以做爬虫,好羡慕那些会Python的同学。。。但是却忽略自己已经掌握了一名灰常厉害的江湖绝学,java大法!!! 好了废话不多说开始教程:
一、首先开始理思路
(一)、爬虫软件其实就是一个把 页下载下来的然后从里面挑选出我们想要的元素
所有技术的关键就是:
1、把 页缓存到内存
2、从里面挑出我们想要的内容
3、把挑选的内容保存到本地
二、发现难点
1、怎么缓存/p>
利用io流!——怎么获得io流—利用HttpURLConnection的getInputStream(new URL(“我是 址”))方法。这样就获得了一个io流,获得io流之后就知道怎么做了吧!
2、如挑选出指定的内容/p>
这个时候就要问百度了,幸好百度大神多,才看了几个以后发现里面有几种方法一种是自己做一个判断挑选出想要的内容,第二种方法是利用第三方库。。。如果想锻炼基础的同学可以自己做一个第三方包,在 上搜到了有两个包可以完美解决这个问题 Jsoup包和htmlparser今天我们用第一个里面有很多方法 供我们选择(虽然是英文的但是可以谷歌翻译)
3、如何保存在本地/span>
同样是io流,很简单,这个不说了!
下面直接上代码:
可以参考官方的文档:点击打开链接
当然还有其他的一些方法比如取出所有图片可以用
好了简单的爬虫软件就做好了,可以进行下一步大数据统计了!!!! 文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览91730 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!