从0到1搭建大数据平台之数据采集篇

大家好，我是脚丫先生 (o^^o)

最近一直忙于实时流任务的开发。

糟点无处不在，好在成功克服。

时常想做技术的乐趣，在于每当解决一个疑难问题时候的那种喜悦难以言表。

甚是带劲。

时隔多日，我们正式迈入大数据平台之采集篇。

希望能带给小伙伴们劲味十足的喜悦。

一步一个脚印向前迈进，一层到八层，贼高贼高。

似乎有点恐高。

海量的数据：大而复杂的数据集。

复杂的数据：数据类型的多样性，包括文本，图片，视频，音频。

高速的数据：数据的产生呈指数式爆炸式增长，要求处理数据的速度越来越高。

数据种类大致分为结构化数据、半结构化数据、非结构化数据。

数据类型	区别
结构化数据	用二维数据库表来抽象表示。以数据库数据和文本数据为结构化数据。
半结构化数据	介于结构化和非结构化之间，主要指 XML、HTML、JSON 文档、Email 等等，也可称非结构化
非结构化数据	数据没有以一个预先定义的方式来组织，不可用二维表抽象，比如图片，图像，音频，视频等。

数据采集，就是根据海量数据的种类不同，选择合适的采集工具，实施数据集成到大数据平台的过程。

1、各个业务系统的关系数据库，可以称之为业务的交互数据。主要是在业务交互过程中产生的数据。比如，你去大保健要用支付宝付费，淘宝剁手购物等这些过程产生的相关数据。一般存储在 DB 中，包括 Mysql，Oracle。

2、各种埋点日志，可以称之为埋点用户行为数据。主要是用户在使用产品过程中，与客户端进行交互过程产生的数据。比如，页面浏览、点击、停留、评论、点赞、收藏等。简而言之，夜深人静的时候，你躲在被子里，用快播神器看不知名的大片这些行为，都会产生数据被捕获。

总结：大数据采集的数据来自于日志、数据库、爬虫。

2.1 日志采集

2.1.1 浏览器页面日志

浏览器页面日志采集，主要分为两大类。

页面浏览(展现)日志采集：页面浏览日志是指当
一个页面被浏览器加载呈现时采集的日志。此日志主要价值在于两大基本指标：页面浏览量(PV)和访客数(UV)的统计。

页面交互日志采集：也就是用户行为数据的采集，主要是用户在使用产品过程中，与客户端进行交互过程产生的数据。

2.1.2 无线客户端 App 日志采集

众所周知，日志来集多是为了进行后续的数据分析。

还有一类以文件的形式进行数据的存储，如：文件系统 FTP,阿里云对象存储等。

针对这些不同源的数据进行采集，利用采集工具将数据源的数据读取出来，转换为中间状态，并在目标数据系统中将中间状态的数据转换为对应的数据格式后写入。

三、大数据采集之工具

正所谓，好马配好鞍。

大数据日志采集工具，有很多种，小伙伴们可以根据自己的业务需求，进行合适选择。

3.2 多源异构数据的采集工具

目前公司项目，离线数据的集成与同步，利用大数据采集技术栈进行多源异构数据的导入导出的使用比较多。

其架构如下所示

DataX 本身作为离线数据同步框架，采用 Framework + plugin 架构构建。将数据源读取和写入抽象成为 Reader/Writer 插件，纳入到整个同步框架中。

其架构如下所示：

简单的来说，络爬虫就是自动从互联中定向或不定向的采集信息的一种程序。

目前常用的爬虫工具是Scrapy，它是一个爬虫框架，提供给开发人员便利的爬虫API接口。开发人员只需要关心爬虫API接口的实现，不需要关心具体框架怎么爬取数据。

Scrapy框架大大降低了开发人员开发速率，开发人员可以很快的完成一个爬虫系统的开发。

好了，今天就聊到这里，祝各位终有所成，收获满满！

期待老铁的关注！！！

一枚热衷于分享大数据基础原理，技术实战，架构设计与原型实现之外，还喜欢输出一些有趣实用的编程干货内容，与私活案例。

更多精彩福利干货，期待您的关注 ~

文章知识点与官方知识档案匹配，可进一步学习相关知识云原生入门技能树首页概览8587 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！