通用机器学习算法，训练集 -> "Predictor"

General Machine Learning Algorithm, Training Set -> "Predictor"

本文关键字：gt Predictor 机器学习算法更新时间：2023-10-16

考虑以下代码：

struct TrainingExample
{
    array<double, N> input;
    array<double, M> output;
};
struct Predictor
{
    Predictor(const vector<TrainingExample>& trainingSet);
    array<double, M> predict(const array<double, N>& input);
}

该类的使用如下：

将实体类型的一些易于测量的特性建模为N输入双的数组
将实体类型的一些难以测量的特性建模为M输出加倍
对实体宇宙进行采样，同时测量输入和输出
然后将这些数据作为trainingSet传递给Predictor的构造函数，后者随后对其进行"研究"
测量主题实体的输入，并将其传递给预测函数
Predict将根据训练示例返回对输出的猜测

我的问题是，假设这个类必须被许多不同的问题/模型重用，而不修改每个特定问题的代码——哪种机器学习算法最适合实现这样的通用预测器？（如果你认为没有明确的最佳算法，那么一些流行的竞争算法是什么？你如何在它们之间进行选择？）

好吧，如果没有对这个问题的一般知识，几乎不可能回答你的问题。你基本上指定了机器学习的过程：接受输入，研究它，生成模型的一些参数，然后预测验证集的结果。这是你根据问题本身提供的关于使用哪种算法的见解。

通常，神经网络在许多不同的领域都能产生良好的结果（这将是梯度体面的学习规则算法）。在许多情况下，贝叶斯模型表现非常好，基于案例的推理通常用于离散、重复输入等。根据问题的定义来选择一个。

如果我了解输出数组是什么（预测值的数组），线性回归或其任何变体（如贝叶斯回归）都适合您的方法。你应该把你的训练样本分成两个不同的集合，一个是你实际训练预测器的训练集，另一个是用来测试参数性能的测试集。为每个输出值提供不同的预测器实例也是一个不错的举措。