【络爬虫】【python】络爬虫（二）：易微博爬虫软件开发实例（附软件源码）

对于urllib2的学习，这里先推荐一个教程《IronPython In Action》，上面有很多简明例子，并且也有很详尽的原理解释：http://www.voidspace.org.uk/python/articles/urllib2.shtml

最基本的爬虫，主要就是两个函数的使用urllib2.urlopen()和re.compile()。

先来看一个最简单的例子，以百度音乐页面为例，访问返回页面html的string形式，程序如下：

程序运行完毕后，html页面存放在当前工程目录下，在左侧Package Explorer里刷新一下，可以看到抓回来的html页面，这里先抓了10个页面，打开一个看看：

剩下的就是正则解析提取字段了，主要用到python的re模块。

上面只是给出了基本爬取过程，后期加上正则解析提取微博文本数据，中文字符编码处理等等，下面给出这个爬虫软件。（已转换为可执行exe程序）

完整源码：

实现自定义输入关键词，指定要爬取的页面数据，根据关键词提取页面中的微博信息数据。

实时爬取微博信息数据，数据源 http://t.163.com/tag/searchword/

1.自定义关键词、抓取页面数量

软件已经放到github，地址 https://github.com/DianaCody/Spider_python/。

软件地址： https://github.com/DianaCody/Spider_python/tree/master/Tweet163_Crawler/release

exe的软件也可以在这里下载：点击下载

http://download.csdn.net/detail/dianacody/8001441

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！