K最近邻算法
根据周围数据点的类型对某个数据点进行分类。
根据少数服从多数的原则。
参数K表示周围数据点的个数。
选择K值得过程叫做参数调优,它对预测的准确度起着至关重要的作用。、
K值太小,数据点只与最近的邻居匹配,并且随机噪声所产生的误差也会被放大。
K值太大,数据点会尝试与更远的邻居匹配,其中隐含的模式会被忽略。
K值恰当,数据点才会参考合适数量的邻居,使得误差相互抵消,有利于揭示数据中隐藏的趋势。
为实现理想拟合并把误差降到最低,使用交叉验证法对参数K进行调优。
对于二分类问题,可以把K设置成一个奇数,以避免出现平局。
K最近邻算法可以用来预测数据点的类别和取值,也可以用来识别异常。
局限性
类别不平衡:可以使用加权投票法取代少数服从多数的原则,确保较近数据点类别的权重较远的更大。
预测变量过多:可以使用降维方法,只抽取最具影响力的预测变量用于分析。
小结
K最近邻算法根据周围数据点的类型对某个数据点进行分类。
K表示用作参考的数据点个数,可以使用交叉验证法来确定。
K最近邻算法适用于预测变量数目不多,并且类别大小差别不大的情况。
不准确的分类可能会被标记为潜在异常。
文章评论(0条评论)
登录后参与讨论