2018
年第
12
期
信息与电脑
China Computer&Communication
软件开发与应用
基于
Python
的 络爬虫系统的设计与实现
刘
杰
葛晓玢
闻顺杰
(铜陵职业技术学院 信息工程系,安徽 铜陵
244061)
摘 要:
互联 发展至今已成为人类日常工作与生活中获取信息的主要途径之一。传统的信息获得方式主要是用户
使用搜索引擎搜索信息,这种方式虽然具有出色的搜索速度,但也存在着搜索信息与所需信息契合度不高、信息未进行
有效分类等不足。因此,如何提升用户信息搜索的质量就成为了互联 从业者当前关注的重点,而其中的很多人都将研
究重点放在了通过系统层面改善用户信息获取质量上。笔者介绍一种基于
Python
的 络爬虫系统的设计要求,具体阐述
如何实现信息的高质量获取。
关键词:
Python; 络爬虫系统;搜索引擎
中图分类
:TP393.092
文献标识码:A
文章编 :1003-9767(2018)12-092-03
Design and Implementation of Web Crawler System Based on Python
Liu Jie, Ge Xiaobin, Wen ShunJie
(
Department of Information Engineering, Tongling Polytechnic, Tongling Anhui 244061, China
)
Abstract:
The development of Internet has become one of the main ways to obtain information in daily work and life. The
traditional way of obtaining information is that users use search engines to search information. This way, although it has excellent
search speed, there are also shortcomings such as poor matching degree of search information and required information and no
effective classification of information. Therefore, how to improve the quality of user information search has become the focus of
Internet practitioners, and many of them focus on improving the quality of user information acquisition through the system level. The
author introduces the design requirements of a web crawler system based on Python, and specifically describes how to achieve high
quality information acquisition.
Key words:
Python; network crawler system; search engines
络爬虫是随着互联 技术发展而产生的一种新型 络
概念,可以将其理解为 络上的“机器人”,其诞生的主要
原因是满足互联 用户日益提高的信息搜索质量要求,能够
实现从 络地址的角度有效搜集用户所需信息,因而也成为
未来信息类互联 站开发领域的重点研究对象,而在这之
中,基于
Python
开发的 络爬虫系统研究最为广泛。
1 Python
简介
Python
语言作为一种开源编程语言,因其可实现功能
众多、语法简便易学、条理清晰等特点被广泛应用于各种常
见操作系统。另外,由于其具有直接面对编程对象的特点,
因而极大地简化了编程的过程,对提高程序编写效率有着重
要作用。同时,由于
Python
编程语言具备较强的解释性,
且可以实现动态编写程序,因而成为了一些快速性应用程序
编写语言的良好选择。此外,
Python
语言自带的 络协议库
能够对程序编写过程中的各类型 络协议进行自主识别、分
层、封存,程序员仅需保证编写程序逻辑性的合理即可。而
Python
强大的字节流处理功能同样为程序开发的高效性提供
了重要保障。
2 基于
Python
的 络爬虫系统设计要求
2.1 Python
与 络爬虫
所谓 络爬虫指的是一种通过搜索 页地址的方式实现
基
金
项
目:
2017
铜
陵
职
业
技
术
学
院
科
研
重
点
项
目“
基
于
络
爬
虫
的
Web
漏
洞
扫
描
的
研
究
与
设
计”(
项
目
编
:
tlpt2017NK002);2016
安徽省教研一般项目“基于‘以赛促改、以赛促练、以赛促教、以赛促学’协同的高职 络技术
专业实践教学模式构建与实施”(项目编 :2016jyxm1063)。
刘杰(1983-),男,安徽铜陵人,硕士研究生,讲师。研究方向:计算机 络和系统安全。
— 92 —
文章知识点与官方知识档案匹配,可进一步学习相关知识 络技能树首页概览22354 人正在系统学习中 相关资源:GLONASS卫星位置计算与程序实现_葛奎_glonass_卫星位置__matlab…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!