使用 k 近邻在一个类中有多少样本是最佳的

How many samples are optimal in one class using k-nearest neighbor?

本文关键字：多少样本最佳一个近邻使用更新时间：2023-10-16

我已经在我的系统中实现了k-near算法。它由 26 个类组成，每个类有 100 个样本。就我而言，K=7，完全是反复试验才能获得最佳分类结果。

我知道应该明智地选择 K 以减少分类上的噪音。但是样本数量呢？是否有任何一般规则，例如"样本越多，结果越好"？它取决于什么吗？

感谢您的所有回复。

您可以尝试考虑生成数据的任何潜在机制，或者您对该问题的任何背景知识，这可能会让您了解噪声的相对大小和真正的潜在变化。例如，从位置预测最喜欢的运动队我期望比预测最喜欢的运动有更多的变化，所以会使用较小的k。但是，除了使用交叉验证之外，我不知道太多的一般指导。