导论复习


离线版提取链接:(md文档版;pdf版;html 页版)

链接:https://pan.baidu.com/s/1iajPF0MGG5W9kqgavt1WhQ
提取码:lzq0

或点击
大数据导论复习( 盘)
提取码:lzq0


单选题


6.早期的云计算产品AWS是由哪家企业提出的:C
A.微软B.IBMC.亚马逊D.谷歌
7.云计算包括3种类型。面向所有用户提供服务,只要是注册付费的用户都可以使用,这种云计算属于:C
A.独立云B.私有云C.公有云D.混合云
8.云计算包括3种类型。只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务,这种云计算属于:C
A.混合云B.公有云C.私有云D.独立云
9.以下关于大数据、云计算和物联 的区别,描述错误的是:C
A.云计算本质上旨在整合和优化各种IT资源并通过 络以服务的方式,廉价地提供给用户
B.大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活
C.云计算旨在从海量数据中发现价值,服务于生产和生活
D.物联 的发展目标是实现物物相连,应用创新是物联 发展的核心
10.以下关于机器学习,描述错误的是:A
A.机器学习强调三个关键词:算法、模型、训练
B.研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能
C.基于数据的机器学习是现代智能技术中的重要方法之一
D.是一门涉及统计学、系统辨识、逼近理论、神经 络、优化理论、计算机科学、脑科学等诸多领域的交叉学科
11.以下关于知识图谱,描述错误的是:C
A.又称为科学知识图谱
B.在图书情 界称为知识域可视化或知识领域映射地图
C.知识图谱属于密码学研究范畴
D.知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域
12.以下关于人机交互,描述错误的是:A
A.人机交互界面通常是指用户不可见的部分
B.人机交互是一门研究系统与用户之间的交互关系的学科
C.用户通过人机交互界面与系统交流,并进行操作
D.系统可以是各种各样的机器,也可以是计算机化的系统和软件
13.以下关于计算机视觉,描述错误的是:B
A.是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉
B.语音识别属于计算机视觉的典型应用
C.计算机视觉是一门综合性的学科
D.计算机视觉是一门研究如何使机器“看”的科学

14.以下哪个步骤不属于数据的采集与预处理:D
A.利用 页爬虫程序到互联 站中爬取数据
B.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中
C.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析
D.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
15.以下哪项不属于数据清洗的内容:D
A.成对删除
B.一致性检查
C.无效值和缺失值的处理
D.精确度校验
16.以下哪项不属于传统的数据存储和管理技术:D
A.数据仓库
B.关系数据库
C.文件系统
D.NoSQL数据库
17. 数据清洗的方法不包括( D )。
(A)缺失值处理 (B)噪声数据清除 ? 一致性检查 (D)重复数据记录处理
18.以下关于分布式文件系统,描述错误的是:B
A.谷歌开发了分布式文件系统GFS
B.所有的分布式文件系统的设计都是采用“客户机/服务器”(Client/Server)模式
C.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现
D.是一种通过 络实现文件在多台主机上进行分布式存储的文件系统
19.以下描述错误的是:D
A.Web 2.0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心
B.传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大规模存储需求
C.传统的关系数据库可以较好地支持结构化数据存储和管理
D.传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂查询,在Web 2.0时代成为不可或缺的核心特性
20.以下关于NoSQL数据库描述错误的是:A
A.NoSQL数据库有固定的表结构,通常存在较多连接操作
B.NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型
C.与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储
D.NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称
21.下面属于批处理技术的是:D
A.GraphX B.Spark Streaming C.Storm D.MapReduce
22.下面属于流计算技术的是:A
A.S4 B.GraphX C.Spark MLLib D.Hive
23.下面属于图计算技术的是:B
A.Dremel B.Pregel C.DStream D.Impala
24.下面属于查询分析计算技术的是:C
A.Pregel B.Storm C.Hive D.Spark Streaming

25.下面关于推荐系统的描述错误的是:B
A.和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算
B.推荐系统是一种只能通过专家进行人工推荐的系统
C.推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求
D.推荐系统是自动联系用户和物品的一种工具
26.以下推荐方法中,哪一个是基于内容的推荐:B
A.由资深的专业人士来进行物品的筛选和推荐
B.通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容
C.对多种推荐算法进行有机组合,然后给出推荐结果
D.基于统计信息进行推荐
27.以下哪项不属于大数据在城市管理中的应用:D
A.环保监测B.智能交通C.城市规划D.比赛预测
28.以下哪项不属于大数据在零售领域的应用:C
A.供应链管理B.客户群体划分C.大数据征信D.发现关联购物行为

32.下面关于机械思维的核心思想,描述错误的是:(B)
A.这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践
B.世界变化的规律是无法确定的
C.世界变化的规律是确定的
D.规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚
33.我们在使用智能手机进行导航来避开城市拥堵路段时,体现了哪种大数据思维方式:(A)
A.我为人人,人人为我B.全样而非抽样
C.相关而非因果D.效率而非精确
34.谷歌采用搜索引擎大数据进行流感趋势预测,体现了哪种大数据思维方式:(A)
A.全样而非抽样B.效率而非精确
C.相关而非因果D.我为人人,人人为我
35.“啤酒与尿布”的故事,体现了哪种大数据思维方式:(A)
A.相关而非因果B.我为人人,人人为我
C.全样而非抽样D.效率而非精确
36.大数据的简单算法比小数据的复杂算法更有效,体现了哪种大数据思维方式:(C)
A.全样而非抽样B.效率而非精确
C.以数据为中心D.相关而非因果
37.迪士尼MagicBand手环,体现了哪种大数据思维方式:(B)
A.相关而非因果B.我为人人,人人为我
C.效率而非精确D.全样而非抽样

38.下面关于大数据伦理的描述,错误的是:D
A.作为一种新的技术,大数据技术像其他所有技术一样,其本身是无所谓好坏的,而它的“善”与“恶”全然在于对大数据技术的使用者
B.大数据伦理问题是指由于大数据技术的产生和使用而引发的 会问题
C.大数据伦理属于科技伦理的范畴
D.大数据技术本身就存在“善”和“恶”的区分
39.现在的互联 ,基于大数据和人工智能的推荐应用越来越多,越来越深入,我们一直被“喂食着”经过智能化筛选推荐的信息,久而久之,会导致什么问题:A
A.信息茧房问题B.隐形偏差问题C.大数据杀熟问题D.隐私泄露问题
40.下面哪一个不属于大数据伦理问题:B
A.隐私泄露问题B.数据冗余问题C.数据安全问题D.数字鸿沟问题


多选



简答


1、什么是数据可视化可视化的七个数据类型是什么strong>

答:数据可视化要根据数据的特性,如时间信息和空间信息等,找到合适的可视化方式,例如图表、图和地图等,将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息。
数据可视化的七个数据类型是1D线性数据、2D地图数据、3D世界数据、多维数据、时态数据、树数据、 络数据。
2、简述数据科学需要具备的技能和素质。

答:数据科学需要具备的技能:
(1)计算机科学
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2)数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境R最近备受瞩目。
(3)数据可视化
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
数据科学家所需要具备的素质有以下这些:
(l)沟通能力:即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。
(2)创业精神:以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。谷歌、亚马逊、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。
(3)好奇心:庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。
3、平台即服务是云计算中最为重要的一个类型,请简述平台即服务的三个主要特点。

答:软件即服务 (SaaS,Software as a Service) 使用户可以通过 Internet 访问软件应用程序。用户不必购买并在自己的计算机或设备上安装、更新和管理这些资源,而可以通过Web 浏览器访问并使用它们。SaaS 提供商在云中为用户管理软件、处理能力和存储。大多数 SaaS 解决方案在公共云中运行,并以订阅或免费服务的形式提供。
平台即服务 (PaaS,Platform as a Service) 提供在集成式云环境中开发、测试、运行和管理 SaaS 应用程序所需的基础架构和计算资源。拥有 Internet 连接的任何人都可以参与并开发基于云的解决方案,而不必寻找、购买和管理硬件、操作系统、数据库、中间件以及其他软件。大多数PaaS 供应商都可以提供比传统编程工具更易于使用的JavaScript、Adobe Flex 和 Flash 等工具。用户不必拥有或控制开发环境,但却能真正地控制他们在其中开发和部署的应用程序。
基础架构即服务 (IaaS,Infrastructure as a Service) 提供托管的 IT 基础架构,供用户调配处理能力、存储、 络和其他基础计算资源。IaaS 提供商运行并管理此基础架构,用户可以在此基础架构上运行选择的操作系统和应用程序软件。
4、在大数据时代,为什么要“分析与某事物相关的所有数据,而不是依靠分析少量的数据样本”strong>

答:过去由于数据采集、数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全局数据的总体特征。对样本的分析结果被应用到全集数据以后,误差会被放大,这就意味着抽样分析的微小误差被放到全集数据以后,可能会变成一个很大的误差。
现在已经迎来大数据时代,大数据技术的核心就是海量数据的实时采集、存储和处理。感应器、手机导航、 站点击和微博等能够收集大量数据,分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力,因此,有了大数据技术的支持,科学分析完全可以直接针对全局数据而不是抽样数据,并且可以在短时时间内迅速得到分析结果。


声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年5月13日
下一篇 2021年5月13日

相关推荐