咨询请添加 QQ:3064302332 微信:wxxygzs
南开24秋学期(高起本:1809-2103、专升本高起专:2103)《数据科学导论》在线作业(标准答案)
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.实体识别的常见形式( * )
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
2.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明( * )。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
3.实体识别属于以下哪个过程( * )
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
4.单层感知机是由( * )层神经元组成。
A.一
B.二
C.三
D.四
5.以下哪个不是处理缺失值的方法( * )
A.删除记录
B.按照一定原则补充
C.不处理
D.随意填写
6.多层感知机是由( * )层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
7.以下哪一项不是特征工程的子问题( * )
A.特征创建
B.特征提取
C.特征选择
D.特征识别
8.在k近邻法中,选择较小的k值时,学习的“近似误差”会( * ),“估计误差”会( * )。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
9.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
10.根据映射关系的不同可以分为线性回归和( * )。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
11.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含( * )
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
12.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于( * )
A.异常值
B.缺失值
C.不一致的值
D.重复值
13.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或( * )。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
14.以下哪一项不属于数据变换( * )
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
15.Apriori算法的加速过程依赖于以下哪个策略( )
A.抽样
B.剪枝
C.缓冲
D.并行
16.哪一项不属于规范化的方法( * )
A.最小-最大规范化
B.零-均值规范化
C.小数定标规范化
D.中位数规范化
17.以下哪一项不是特征选择常见的方法( * )
A.过滤式
B.封装式
C.嵌入式
D.开放式
18.以下哪些不是缺失值的影响( * )
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
19.单层感知机拥有( * )层功能神经元。
A.一
B.二
C.三
D.四
20.聚类是一种( * )。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
二、多选题 (共 10 道试题,共 20 分)
21.距离度量中的距离可以是( * )
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
22.系统日志收集的基本特征有( * )
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
23.下面例子属于分类的是( * )
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
24.Apriori算法的计算复杂度受( * )影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
25.K-means聚类中K值选取的方法是( * )。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
26.k近邻法的基本要素包括( * )。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
27.数据科学具有哪些性质( * )
A.有效性
B.可用性
C.未预料
D.可理解
28.下列选项是BFR的对象是( * )
A.废弃集
B.临时集
C.压缩集
D.留存集
29.层次聚类的方法是( * )
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
30.对于多层感知机,( * )层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
三、判断题 (共 20 道试题,共 40 分)
31.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
32.信息熵越小,样本结合的纯度越低
33.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
34.BFR聚类簇的坐标可以与空间的坐标保持一致。
35.剪枝是决策树学习算法对付“过拟合”的主要手段
36.两个对象越相似,他们的相异度就越高。
37.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
38.利用K近邻法进行分类时,k值过小容易发生过拟合现象。
39.数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
40.决策树分类时将该结点的实例强行分到条件概率大的那一类去
41.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
42.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
43.在数据预处理时,无论什么情况,都可以直接将异常值删除
44.不满足给定评价度量的关联规则是无趣的。
45.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
46.关联规则可以被广泛地应用于通信、金融、交通、健康医疗和Web用户行为分析等领域。
47.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
48.集中趋势能够表明在一定条件下数据的独特性质与差异
49.数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
50.单层感知机对于线性不可分的数据,学习过程也可以收敛。