刻度器

葫芦书笔记

发布时间:2023/6/15 1:29:58   
白癜风的费用要多少 https://mjbk.familydoctor.com.cn/bjbdfyy_zx/

1.为什么需要对数值类型的特征做归一化处理?

为了方便后续进行梯度下降的时候加速收敛归一化通常主要分为两种:min-max(线性函数归一化),Z-Score(零均值归一化)需要进行归一化的模型:线性回归,LR,SVM,神经网络等决策树模型不适用归一化处理,因为决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比,而信息增益比和特征是否进行归一化无关,因为归一化并不改变样本在特征x上的信息增益。2.在数据进行预处理时,应该怎样处理类别型特征?

类别型特征原始输入形式通常是字符串形式、除了决策树等少量模型能直接处理字符串形式的输入,对于LR、SVM等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作序号编码(ordinal):类别间具有大小关系独热编码(one-hot):类别间没有大小关系,特征的每个值作为一列。维度过高可能导致维度灾难,产生过拟合问题。二进制编码:先用序号编码给每个类别赋予一个类别ID,然后将ID转为二进制编码作为结果。3.什么是组合特征?如何处理高维组合特征(解决高维组合特征维度过高的问题)?

可以将M*N矩阵分解为M*K和K*N两个矩阵相乘的形式,这样参数从M*N降到K*(M+N)为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。#4.怎样有效的找到组合特征?

基于决策树的特征组合寻找。(原始输入构建决策树可以采用梯度提升决策树即每次都在之前构建的决策树的残差上构建下一课决策树)5.有哪些文本模型?他们各有什么优缺点?

模型(bagofwords):最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应权重则则反映了这个词在原文章的重要程度。但是词袋忽略了由几个词组成一个意思这种情况(“如NBA吐槽大会”这种,分解成了NBA和吐槽大会,结果匹配了很多李诞这样和NBA完全不相关的物料)N-gram模型:词袋模型的改进,N-gram将连续出现的N个词组成的词组也作为一维放到向量表示中去。但是N-gram不能识别两个不同的词有相同的主题TF-TDF:TF-IDF(t,d)=TF(t,d)*IDF(t)其中,TF(t,d)为单词t在文档d中出现的频率,IDF(t)=log(文章总数/(包含单词t的文章总数+1)),IDF公式可理解为如果一个词出现的文章数越多那么说明它越是一个通用词,通用词对文档内容贡献度比较小主题模型:主题模型用于从文本库发现有代表性的主题(得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。词嵌入与深度学习模型:词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间(通常50-维)上的一个稠密向量。K维空间中的每一维都可以看作是一个隐含的主题,只不过不像主题模型中的主题那么直观。由于词嵌入将每个词映射成一个K维的向量,如果一篇文章有N个词,就可以用一个N*K维的矩阵来表示这篇文档,但是这样表示过去底层。在实际应用中,如果仅仅把这个矩阵作为源文本的表示特征输入到机器学习模型中,通常很难得到满意的结果。因此,还需要在此基础上加工出更高层的特征。在传统的浅层机器学习模型中,一个好的特征工程往往可以带来算法效果的显著提示。深度学习模型正好为我们提供了一种自动的进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。卷积神经网络和循环神经网络的结构在文本表示中取得很好的效果,主要是由于他们能够更好的对文本进行建模,抽取出更高层的语义特征。。与全链接网络结构相比,卷积神经网络和RNN一方面很好的抓住了文本的特征,另一方面又减少了网络学习中待学习的参数,提高了训练速度,并且降低了过拟合的风险。6.Word2Vec是如何工作的?它和LDA有什么区别与联系?

word2vec实际上一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(continuesbagofwords)和Skip-gramCBOW的目标是根据上下文出现的词语来预测当前词的生成概率;skip-gram是根据当前词来预测上下文中各词的生成概率。word2vec是google开发的一种词向量嵌入的模型,主要分为CBOW和skip-gram两种,最后得到词向量是densevector。LDA是一种生成模型,最后可以得到文档与主题,主题与词之间的概率分布。7.在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

训练数据不足主要表现在过拟合方面。两类处理方法:一是基于模型的方法,主要是采用降低过拟合风险的措施包括简化模型(非线性简化为线性)、添加约束项以缩小假设空间、集成学习、Dropout超参数等。二是基于数据的的方法,主要是通过数据扩充8.准确率的局限性

不同类别的样本比例非常不均匀时,占比大的类别往往成为影响准确率的最主要因素9.精确率与召回率的权衡

只用某个点对应的精确率和召回率不能全面地衡量模型的性能,只有通过P-R曲线的整体表现,才能够对模型进行更为全面的评估10.平方根误差的意外

一般情况下,RMSE能够很好的反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差。解决方法:一,在数据预处理时过滤这些噪声点。二,如果不认为这些离群点是噪声的话就要进一步提高模型的预测能力,将离群点产生的机制建模进去。三,找一个更合适的指标来评估该模型。11.什么是ROC曲线

ROC曲线是ReceiverOperatingCharacteristicCurve的简称,中文名为“受试者工作特征曲线”。ROC曲线的横坐标为假阳性率FPR;纵坐标为真阳性率TPR。#12.如果绘制ROC曲线

ROC曲线是通过不断移动分类器的“截断点”来生成曲线上一组关键点的。首先根据样本标签统计出正负样本的数量,假设正样本数量为p,负样本数量为n;接下来,把横轴的刻度间隔设置为1/n,纵轴的刻度间隔设置为1/p;再根据模型输出的预测概率对样本进行排序依次遍历样本,同时从零点开始绘制ROC曲线,每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线,每遇到一个负样本就沿着横轴方向绘制一个刻度间隔的曲线,直到遍历完所有样本,曲线最终停在(1,1)这个点,整个ROC曲线绘制完成。13.如何计算AUC

沿着ROC横轴做积分。14.ROC曲线相比P-R曲线有什么特点

当正负样本的分布发生变化时,ROC曲线的形状能够基本保持不变,而P-R曲线的形状一般会发生较剧烈变化。ROC曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能。ROC曲线的适用范围更广,适用于排序、推荐、广告。选择ROC曲线还是P-R曲线因实际问题而异,如果希望更多的看到模型在特定数据集上的表现,P-R曲线能够更直观地反映其性能。15.结合你的学习和研究经历,探讨为什么在一些场景中要使用余弦相似度而不是欧氏距离

当一对文本相似度的长度差距很大、但内容相近时,如果采用词频或词向量作为特征,它们在特征空间中的欧式距离通常很大;而余弦相似度,它们之间的夹角可能很小,因而相似度更高。此外,在文本、图像、视频等领域,研究的对象的特征维度往往很高,余弦相似度在高维情况下依然保持“相同为1,正交是为0,相反时为-1”的性质,而欧式距离的数值则受维度的影响,范围不固定,并且含义也比较模糊。在一些场景中,例如Word2Vec中,其向量的模长是经过归一化的,此时欧式距离与余弦距离有着单调的关系。此场景下余弦相似度和欧式距离的结果是相同的欧式距离体现数值上的绝对差异,余弦距离体现方向上的相对差异。分析两个不同用户对于不同视频的偏好,更

转载请注明:http://www.aideyishus.com/lktp/4860.html

------分隔线----------------------------