可做各院校 作业 考核 论文 咨询请添加 QQ:3064302332 微信:wxxygzs
南开23秋学期(高起本:1709-2103、专升本高起专:2003-2103)《大数据导论[标准答案]
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
2.以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
3.PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
4.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
5.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
6.DAS代表的意思是()
A.两个异步存储
B.数据归档软件
C.连接一个可选的存储
D.直连存储
7.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
8.用于描述相等时间间隔下连续数据随时间变化趋势的是()
A.折线图
B.散点图
C.条形图
D.饼图
9.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
10.GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
11.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
12.用于描述数据分散情况的是()
A.分布图
B.箱式图
C.饼图
D.折线图
13.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
14.()是Microsoft Office的核心组件
A.SQL
B.WORD
C.PPT
D.EXCEL
15.下列不属于商业大数据类型的是
A.传统企业数据
B.机器和传感器数据
C.社交数据
D.电子商务数据
二、多选题 (共 15 道试题,共 30 分)
16.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
17.数据分析的类型根据数据分析深度可以分为()
A.描述性分析
B.预测性分析s
C.规则性分析
18.互连网上出现的海量信息可以划分为三种,分别为( )
A.结构化信息
B.非结构化信息
C.半结构化信息
D.特殊化信息
19.按照数据量的大小,可将数据分析分为()
A.内存级数据分析
B.Bl级数据分析
C.海量级数据分析
D.巨量级数据分析
20.云计算的特点是()
A.大规模
B.高扩展性
C.虚拟化
D.按需分配
21.交通数据分析可用于:
A.交通流量实时分析
B.合理进行道路规划
C.信号灯智能调度
D.实时路况查询播报
22.统计图表的可视化方法主要包括()
A.散点图
B.折线图
C.条形图
D.饼图
23.大数据带来的挑战有哪些( )。
A.会导致数据盲点
B.危及个人隐私
C.造成群体歧视
D.产生庞大能耗
24.大数据时代预测人类移动行为的数据特点是
A.多样化
B.数据量大
C.维数高
D.变化快
25.下列正确的是()
A.D3是数据驱动文件的缩写,是最流行的可视化库之一,它被很多其他的表格插件所使用
B.D3也可以通过一些自定义模块来根据需求增添需要的(非DOM)特性,并在WebWorker上运行
C.D3采用的是Selectors API的第一级标准
D.基础R已经包含支撑包括协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功能。
26.网络数据采集常用的是通过##或##等方式从网站上获取数据信息。
A.网络爬虫
B.网站公开API
C.手动获取
27.云计算是##,##,##的发展?,是虚拟化、效用计算、 IaaS(基础设施即服务)、PaaS(平台即服务)、Saas(软件即服务)等概念混合演进并跃升的结果。
A.流计算
B.分布式计算
C.并行计算
D.网络计算
28.以下可以用于数据可视化的是()。
A.R语言
B.Excel
C.RapidMiner
D.Weka
29.常见的非结构化数据有()
A.web网页
B.即时消息
C.富文本文档
D.实时多媒体数据
30.百度大数据引擎主要包含三大组件()
A.开放云
B.数据工厂
C.百度大脑。
三、判断题 (共 20 道试题,共 40 分)
31.经典的基于节点和边的可视化,是图可视化的主要形式。
32.大数据在行业应用很广泛,行业领域包括电视媒体,汽车行业,医疗行业,保险行业等等。
33.NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。
34.一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。
35.IDC给出的大数据定义是大数据(Big Data)是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
36.PaaS是平台即服务的简称
37.云计算出现后,数据存储服务衍生出了新的商业模式,数据中心的出现降低了公司的计算和存储成本。
38.时间序列分析是对随时间变化的数据对象的变化规律和演化趋势进行建模分析
39.由于数据变成资源,成为有价值的东西,数据私有化和独占问题就是客观存在的,成为关注的焦点。数据产权界定问题日益突出,在数据权属确定的情况下,数据商品化将成为必然选择
40.数据规模大,难理解,分析过程离不开可视化技术,可视化将贯穿于大数据分析与结果展示的全过程,可视化己经成为很多领域研究的议题。
41.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
42.半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
43.非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值
44.大数据的应用之一是,促进健康管理的个性化和多元化。
45.用一个函数拟合数据来光滑数据称为回归。
46.饼图以二维或者三维的形式表示某一数据相对于数据总量的大小,用于数据之间比重的比较。
47.离群点检测的任务是识别特征显著不同于其他数据的观测值
48.数据会吸引更多的潜在攻击者,成为更具吸引力的目标。
49.通过增加CPU或模块来增加存储容量,这样可以不需要停机。
50.广播变量在广播后可以修改