可做各院校 作业 考核 论文 咨询请添加 QQ:3064302332 微信:wxxygzs
南开23秋学期(高起本:1709-2103、专升本高起专:2003-2103)《数据科学导论》在线作业[标准答案]
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
3.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
4.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
5.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
6.实体识别的常见形式()
A.同名异义
B.异名同义
C.单位不统一
D.属性不同
7.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
8.单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
9.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
10.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
11.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
12.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
13.在一元线性回归模型中,残差项服从()分布。
A.泊松
B.正态
C.线性
D.非线性
14.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
15.在回归分析中,自变量为(),因变量为()。
A.离散型变量,离散型变量
B.连续型变量,离散型变量
C.离散型变量,连续型变量
D.连续型变量,连续型变量
16.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A.关联规则发现
B.聚类
C.分类
D.自然语言处理
17.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
19.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
20.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。
A.计数属性
B.离散属性
C.非对称的二元属性#对称属性
二、多选题 (共 10 道试题,共 20 分)
21.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
22.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
23.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
24.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
25.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
26.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
27.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
28.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
29.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
30.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
三、判断题 (共 20 道试题,共 40 分)
31.剪枝是决策树学习算法对付“过拟合”的主要手段
32.可信度是对关联规则的准确度的衡量。
33.交叉表被广泛用于调查研究,商业智能,工程和科学研究
34.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
35.分拆方法是自底向上的方法。
36.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
37.K均值(K-Means)算法是密度聚类。
38.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
39.茎叶图失去原始数据的信息,而直方图保留原始数据的信息。
40.赤池信息准则是衡量统计模型拟合优良性的一种标准。
41.特征的信息增益越大,则其越不重要。
42.平均减少的不纯度越大,则特征重要度越高。
43.相关性分析主要是分析个别独立变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
44.阶跃函数具有不光滑、不连续的特点。
45.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
46.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
47.Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
48.在数据预处理时,无论什么情况,都可以直接将异常值删除
49.决策树分类时将该结点的实例强行分到条件概率大的那一类去
50.增加神经元的个数,无法提高神经网络的训练精度。