使用 k 近邻在一个类中有多少样本是最佳的

How many samples are optimal in one class using k-nearest neighbor?

本文关键字:多少 样本 最佳 一个 近邻 使用      更新时间:2023-10-16

我已经在我的系统中实现了k-near算法。它由 26 个类组成,每个类有 100 个样本。就我而言,K=7,完全是反复试验才能获得最佳分类结果。

我知道应该明智地选择 K 以减少分类上的噪音。但是样本数量呢?是否有任何一般规则,例如"样本越多,结果越好"?它取决于什么吗?

感谢您的所有回复。

您可以尝试考虑生成数据的任何潜在机制,或者您对该问题的任何背景知识,这可能会让您了解噪声的相对大小和真正的潜在变化。 例如,从位置预测最喜欢的运动队 我期望比预测最喜欢的运动有更多的变化,所以会使用较小的k。但是,除了使用交叉验证之外,我不知道太多的一般指导。