原创 K最近邻算法简述

2019-6-29 21:30 1519 15 5 分类: 机器人/ AI 文集: 机器学习

K最近邻算法

 

根据周围数据点的类型对某个数据点进行分类。

根据少数服从多数的原则。

参数K表示周围数据点的个数。

选择K值得过程叫做参数调优,它对预测的准确度起着至关重要的作用。、

 

K值太小,数据点只与最近的邻居匹配,并且随机噪声所产生的误差也会被放大。

K值太大,数据点会尝试与更远的邻居匹配,其中隐含的模式会被忽略。

K值恰当,数据点才会参考合适数量的邻居,使得误差相互抵消,有利于揭示数据中隐藏的趋势。

 

为实现理想拟合并把误差降到最低,使用交叉验证法对参数K进行调优。

对于二分类问题,可以把K设置成一个奇数,以避免出现平局。

 

K最近邻算法可以用来预测数据点的类别和取值,也可以用来识别异常。

 

局限性

类别不平衡:可以使用加权投票法取代少数服从多数的原则,确保较近数据点类别的权重较远的更大。

预测变量过多:可以使用降维方法,只抽取最具影响力的预测变量用于分析。

 

小结

K最近邻算法根据周围数据点的类型对某个数据点进行分类。

K表示用作参考的数据点个数,可以使用交叉验证法来确定。

K最近邻算法适用于预测变量数目不多,并且类别大小差别不大的情况。

不准确的分类可能会被标记为潜在异常。


文章评论0条评论)

登录后参与讨论
我要评论
0
15
关闭 站长推荐上一条 /2 下一条