长文!机器学习笔试精选 100 题【附详细解析】

关键时刻,第一时间送达!

机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时,我们常常会遇到各种各样的机器学习问题和知识点。为了帮助大家对这些知识点进行梳理和理解,以便能够更好地应对机器学习笔试包括面试,红色石头将之前连载的一些笔试题进行整理,并额外增加了一些典型题目,汇总成 100 道选择题,每道题都有答案和详细的解析!建议收藏!

Q1. 下列说法正确的是多选)

A. AdaGrad 使用的是一阶导数

B. L-BFGS 使用的是二阶导数

C. AdaGrad 使用的是二阶导数

D. L-BFGS 使用的是一阶导数

答案:AB

解析:AdaGrad 是基于梯度下降算法的,AdaGrad算法能够在训练中自动的对学习速率 α 进行调整,对于出现频率较低参数采用较大的 α 更新;相反,对于出现频率较高的参数采用较小的 α 更新。Adagrad非常适合处理稀疏数据。很明显,AdaGrad 算法利用的是一阶导数。

Q2. “增加卷积核的尺寸,一定能提高卷积神经 络的性能。” 这句话是否正确/strong>

A. 正确

B. 错误

答案:B

解析:卷积核的尺寸是超参数,不一定增加其尺寸就一定增加神经 络的性能,需要验证选择最佳尺寸。

Q3. 假设你在卷积神经 络的第一层中有 5 个卷积核,每个卷积核尺寸为 7×7,具有零填充且步幅为 1。该层的输入图片的维度是 224×224×3。那么该层输出的维度是多少/strong>

A. 217 x 217 x 3

B. 217 x 217 x 8

C. 218 x 218 x 5

D. 220 x 220 x 7

答案:C

解析:一般地,如果原始图片尺寸为 nxn,filter 尺寸为 fxf,则卷积后的图片尺寸为 (n-f+1)x(n-f+1),注意 f 一般为奇数。

若考虑存在填充和步幅,用 s 表示 stride 长度,p 表示 padding 长度,如果原始图片尺寸为 nxn,filter 尺寸为 fxf,则卷积后的图片尺寸为:

以二维情况讨论,上图左边是 L2 正则化,右边是 L1 正则化。从另一个方面来看,满足正则化条件,实际上是求解蓝色区域与黄色区域的交点,即同时满足限定条件和 Ein 最小化。对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。

对于 L1 来说,限定区域是正方形,方形与蓝色区域相交的交点是顶点的概率很大,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近 Ein 最优解对应的 wlin 位置,而凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。所以,L1 正则化的解具有稀疏性。

扩展到高维,同样的道理,L2 的限定区域是平滑的,与中心点等距;而 L1 的限定区域是包含凸点的,尖锐的。这些凸点更接近 Ein 的最优解位置,而在这些凸点上,很多 wj 为 0。

Q11. 有 N 个样本,一般用于训练,一般用于测试。若增大 N 值,则训练误差和测试误差之间的差距会如何变化/strong>

A. 增大

B. 减小

答案:B

解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。

Q12. 假定你在神经 络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出 -0.01。X 可能是以下哪一个激活函数/strong>

A. ReLU

B. tanh 

C. Sigmoid

D. 以上都有可能

答案:B

解析:ReLU 的输出范围是 [0,+∞),tanh 的输出范围是 (-1,+1),Sigmoid 的输出范围是 (0,+1)。

Q13. k-NN 最近邻方法在什么情况下效果较好/strong>

A. 样本较多但典型性不好 

B. 样本较少但典型性好 

C. 样本呈团状分布 

D. 样本呈链状分布 

答案:B 

解析:K 近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。

样本呈团状或链状都具有迷惑性,这样 kNN 就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。

Q14. 下列方法中,可以用于特征降维的方法包括多选)

A. 主成分分析 PCA 

B. 线性判别分析 LDA 

C. AutoEncoder 

D. 矩阵奇异值分解 SVD 

E. 最小二乘法 LeastSquares 

答案:ABCD 

解析:主成分分析 PCA 、线性判别分析 LDA 、AutoEncoder、矩阵奇异值分解 SVD 都是用于特征降维的方法。最小二乘法是解决线性回归问题的算法,但是并没有进行降维。

Q15. 以下哪些方法不可以直接来对文本分类/strong>

A. K-Means

B. 决策树

C. 支持向量机

D. kNN

答案:A

解析:K-Means 是无监督算法,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。

Q16. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大/strong>

A. 多项式阶数

B. 更新权重 w 时,使用的是矩阵求逆还是梯度下降

C. 使用常数项

答案:A

解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的,见下图所示:

A. 10/27

B. 39/27

C. 49/27

D. 55/27

答案:C

解析:留一法,简单来说就是假设有 N 个样本,将每一个样本作为测试样本,其它 N-1 个样本作为训练样本。这样得到 N 个分类器,N 个测试结果。用这 N个结果的平均值来衡量模型的性能。

对于该题,我们先画出 3 个样本点的坐标:

第一种情况下,回归模型是 y = 2,误差 E1 = 1。

第二种情况下,回归模型是 y = -x + 4,误差 E2 = 2。

第三种情况下,回归模型是 y = -1/3x + 2,误差 E3 = 2/3。

则总的均方误差为:

另一种情况是 MLE 并不唯一,极大值对应两个 θ。如下图所示:

上式中,分子部分表示真实值与预测值的平方差之和,类似于均方差 MSE;分母部分表示真实值与均值的平方差之和,类似于方差 Var。根据 R-Squared 的取值,来判断模型的好坏:如果结果是 0,说明模型拟合效果很差;如果结果是 1,说明模型无错误。一般来说,R-Squared 越大,表示模型拟合效果越好。R-Squared 反映的是大概有多准,因为,随着样本数量的增加,R-Square必然增加,无法真正定量说明准确程度,只能大概定量。

对于本题来说,单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个特征,R-Squared 可能变大也可能保持不变,两者不一定呈正相关。

如果使用校正决定系数(Adjusted R-Square):

其中,Cov(X,Y) 为 X 与 Y 的协方差,Var[X] 为 X 的方差,Var[Y] 为 Y 的方差。r 取值范围在 [-1,1] 之间,r 越大表示相关程度越高。A 选项中,r=0.9 表示 X 和 Y 之间有较强的相关性。

而 p 和 t 的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。例如,有两个假设:

  • 无效假设(nullypothesis)H0:两参量间不存在“线性”相关。

  • 备择假设(alternativeypothesis)H1:两参量间存在“线性”相关。

如果阈值是 0.05,计算出的 p 值很小,比如为 0.001,则可以说“有非常显著的证据拒绝 H0 假设,相信 H1 假设。即两参量间存在“线性”相关。p 值只用于二值化判断,因此不能说 p=0.06 一定比 p=0.07 更好。

Q24. 下列哪些假设是我们推导线性回归参数时遵循的(多选)/strong>

A. X 与 Y 有线性关系(多项式关系)

B. 模型误差在统计学上是独立的

C. 误差一般服从 0 均值和固定标准差的正态分布

D. X 是非随机且测量没有误差的

答案:ABCD

解析:在进行线性回归推导和分析时,我们已经默认上述四个条件是成立的。

Q25. 为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合/strong>

A. 散点图

B. 柱形图

C. 直方图

D. 以上都不对

答案:A

解析:散点图反映了两个变量之间的相互关系,在测试 Y 与 X 之间的线性关系时,使用散点图最为直观。

Q26. 一般来说,下列哪种方法常用来预测连续独立变量/strong>

A. 线性回归

B. 逻辑回顾

C. 线性回归和逻辑回归都行

D. 以上说法都不对

答案:A

解析:线性回归一般用于实数预测,逻辑回归一般用于分类问题。

Q27. 个人健康和年龄的相关系数是 -1.09。根据这个你可以告诉医生哪个结论/strong>

A. 年龄是健康程度很好的预测器

B. 年龄是健康程度很糟的预测器

C. 以上说法都不对

答案:C

解析:因为相关系数的范围是 [-1,1] 之间,所以,-1.09 不可能存在。

Q28. 下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的中横坐标是输入 X,纵坐标是输出 Y。

偏差(bias)可以看成模型预测与真实样本的差距,想要得到 low bias,就得复杂化模型,但是容易造成过拟合。方差(variance)可以看成模型在测试集上的表现,想要得到 low variance,就得简化模型,但是容易造成欠拟合。实际应用中,偏差和方差是需要权衡的。若模型在训练样本和测试集上都表现的不错,偏差和方差都会比较小,这也是模型比较理想的情况。

Q30. 假如你在训练一个线性回归模型,有下面两句话:

    1. 如果数据量较少,容易发生过拟合。

    2. 如果假设空间较小,容易发生过拟合。

关于这两句话,下列说法正确的是/strong>

A. 1 和 2 都错误

B. 1 正确,2 错误

C. 1 错误,2 正确

D. 1 和 2 都正确

答案:B

解析:先来看第 1 句话,如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。

再来看第 2 句话,如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。

Q31. 假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。

那么,下列说法正确的是/strong>

A. 特征 X1 很可能被排除在模型之外

B. 特征 X1 很可能还包含在模型之中

C. 无法确定特征 X1 是否被舍弃

D. 以上说法都不对

答案: B

解析:Lasso 回归类似于线性回归,只不过它在线性回归的基础上,增加了一个对所有参数的数值大小约束,如下所示:

左边是第二范式,右边是第一范式。第一范数约束下,β 更有可能被约束成 0。这点非常类似于 L1 和 L2 正则化的区别,有兴趣的请看我之前一篇文章:机器学习中 L1 和 L2 正则化的直观解释

因此,Lasso 回归适用于样本数量较少,特征维度较大的情形,便于从较多特征中进行特征选择。例如 DNA 数据,特征维度很大,我们只希望通过 Lasso 回归找出与某些疾病有关的 DNA 片段。

本题中,将特征 X1 数值扩大 10 倍,他对应的回归系数将相应会减小,但不为 0,以此来保证仍然满足 β 的正则化约束。

Q32. 关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是/strong>

A. Ridge 回归适用于特征选择

B. Lasso 回归适用于特征选择

C. 两个都适用于特征选择

D. 以上说法都不对

答案:B

解析:上一题我们已经介绍过,Lasso 回归会让一部分回归系数刚好可以被约束为 0,起到特征选择的效果。

Ridge 回归又称岭回归,它是普通线性回归加上 L2 正则项,用来防止训练过程中出现的过拟合。L2 正则化效果类似上一题左图,限定区域是圆,这样,得到的回归系数为 0 的概率很小,很大概率是非零的。因此,比较来说,Lasso 回归更容易得到稀疏的回归系数,有利于舍弃冗余或无用特征,适用于特征选择。

Q33. 如果在线性回归模型中增加一个特征变量,下列可能发生的是(多选)/strong>

A. R-squared 增大,Adjust R-squared 增大

B. R-squared 增大,Adjust R-squared 减小

C. R-squared 减小,Adjust R-squared 减小

D. R-squared 减小,Adjust R-squared 增大

答案:AB

解析:线性回归问题中,R-Squared 是用来衡量回归方程与真实样本输出之间的相似程度。其表达式如下所示:

其中,n 是样本数量,p 是特征数量。Adjusted R-Squared 抵消样本数量对 R-Squared 的影响,做到了真正的 0~1,越大越好。

增加一个特征变量,如果这个特征有意义,Adjusted R-Square 就会增大,若这个特征是冗余特征,Adjusted R-Squared 就会减小。

Q34. 下面三张图展示了对同一训练样本,使用不同的模型拟合的效果(蓝色曲线)。那么,我们可以得出哪些结论(多选)/strong>

MSE 指的是均方误差:

以上指标都可以用来评估线性回归模型。

Q36. 线性回归中,我们可以使用正规方程(Normal Equation)来求解系数。下列关于正规方程说法正确的是/strong>

A. 不需要选择学习因子

B. 当特征数目很多的时候,运算速度会很慢

C. 不需要迭代训练

答案:ABC

解析:求解线性回归系数,我们一般最常用的方法是梯度下降,利用迭代优化的方式。除此之外,还有一种方法是使用正规方程,原理是基于最小二乘法。下面对正规方程做简要的推导。

已知线性回归模型的损失函数 Ein 为:

然后就能计算出 W:

关于 A 和 B 各自的残差之和,下列说法正确的是/strong>

A. A 比 B 高

B. A 比 B 小

C. A 与 B 相同

D. 以上说法都不对

答案:C

解析:A 和 B 中各自的残差之和应该是相同的。线性回归模型的损失函数为:

A. 3.02

B. 0.75

C. 1.01

D. 0.604

答案:A

解析:SSE 是平方误差之和(Sum of Squared Error),SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.02

Q44. 假设变量 Var1 和 Var2 是正相关的,那么下面那张图是正确的中,横坐标是 Var1,纵坐标是 Var2,且对 Var1 和 Var2 都做了标准化处理。

其中,n 是样本数量。统计数据的频数分布有的是对称的,有的是不对称的,即呈现偏态。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。

我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏态还是右偏态,但要度量分布偏斜的程度,就需要计算偏斜度了。

Q48. 假设有 n 组数据集,每组数据集中,x 的平均值都是 9,x 的方差都是 11,y 的平均值都是 7.50,x 与 y 的相关系数都是 0.816,拟合的线性回归方程都是 y = 3.00 + 0.500*x。那么这 n 组数据集是否一样/strong>

相应的 Python 代码为:

Q49. 观察样本次数如何影响过拟合(多选)意:所有情况的参数都保持一致。

A. 观察次数少,容易发生过拟合

B. 观察次数少,不容易发生过拟合

C. 观察次数多,容易发生过拟合

D. 观察次数多,不容易发生过拟合

答案:AD

解析:如果样本观察次数较少,且样本数量较少,通过提高模型复杂度,例如多项式阶数,很容易对所有样本点都拟合的非常好,造成过拟合。但是,如果观察次数多,样本更具有代表性,这时候,即使模型复杂,也不容易发生过拟合,得到的模型能够较真实地反映真实的数据分布。

Q50. 假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge 回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较大时,关于偏差(bias)和方差(variance),下列说法正确的是/strong>

A. 若 λ 较大时,偏差减小,方差减小

B. 若 λ 较大时,偏差减小,方差增大

C. 若 λ 较大时,偏差增大,方差减小

D. 若 λ 较大时,偏差增大,方差增大

答案:C

解析:若 λ 较大时,意味着模型复杂度较低,这时候容易发生欠拟合,对应偏差增大,方差减小。做个简单总结:

  • λ 较小:偏差减小,方差增大,容易发生过拟合

  • λ 较大:偏差增大,方差减小,容易发生欠拟合

关于正则化的图形化解释,请参考我的这篇文章:

机器学习中 L1 和 L2 正则化的直观解释

Q53. 在下面给出的三个残差图中,下面哪一个代表了与其他模型相比更差的模型/strong>

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年7月21日
下一篇 2018年7月21日

相关推荐