南开19秋学期(1709、1803、1809、1903、1909)《数据科学导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
2.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
3.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
4.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
5.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
6.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
7.在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
8.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
9.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
10.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
A.自上而下
B.自下而上
C.自左而右
D.自右而左
11.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
12.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
13.单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
14.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
15.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
16.单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
17.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
18.哪一项不属于规范化的方法()
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
19.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
20.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。
A.1
B.2
C.3
D.4
二、多选题 (共 10 道试题,共 20 分)
21.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
22.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
23.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
24.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
25.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
26.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
27.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
28.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
29.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
30.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
三、判断题 (共 20 道试题,共 40 分)
31.啤酒与尿布的故事是聚类分析的典型实例。
32.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
33.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
34.平均减少的不纯度越大,则特征重要度越高。
35.多元线性回归模型中,标准化偏回归系数没有单位。
36.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
37.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
38.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
39.利用K近邻法进行分类时,k值过小容易发生过拟合现象。
40.Apriori算法是一种典型的关联规则挖掘算法。
41.两个对象越相似,他们的相异度就越高。
42.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
43.K均值(K-Means)算法是密度聚类。
44.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。
45.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
46.使用SVD方法进行图像压缩不可以保留图像的重要特征。
47.随着特征维数的增加,样本间区分度提高。
48.特征的信息增益越大,则其越不重要。
49.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
50.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。