通用机器学习算法,训练集 -> "Predictor"

General Machine Learning Algorithm, Training Set -> "Predictor"

本文关键字:gt Predictor 机器学习 算法      更新时间:2023-10-16

考虑以下代码:

struct TrainingExample
{
    array<double, N> input;
    array<double, M> output;
};
struct Predictor
{
    Predictor(const vector<TrainingExample>& trainingSet);
    array<double, M> predict(const array<double, N>& input);
}

该类的使用如下:

  1. 将实体类型的一些易于测量的特性建模为N输入双的数组
  2. 将实体类型的一些难以测量的特性建模为M输出加倍
  3. 对实体宇宙进行采样,同时测量输入输出
  4. 然后将这些数据作为trainingSet传递给Predictor的构造函数,后者随后对其进行"研究"
  5. 测量主题实体的输入,并将其传递给预测函数
  6. Predict将根据训练示例返回对输出的猜测

我的问题是,假设这个类必须被许多不同的问题/模型重用,而不修改每个特定问题的代码——哪种机器学习算法最适合实现这样的通用预测器?(如果你认为没有明确的最佳算法,那么一些流行的竞争算法是什么?你如何在它们之间进行选择?)

好吧,如果没有对这个问题的一般知识,几乎不可能回答你的问题。你基本上指定了机器学习的过程:接受输入,研究它,生成模型的一些参数,然后预测验证集的结果。这是你根据问题本身提供的关于使用哪种算法的见解。

通常,神经网络在许多不同的领域都能产生良好的结果(这将是梯度体面的学习规则算法)。在许多情况下,贝叶斯模型表现非常好,基于案例的推理通常用于离散、重复输入等。根据问题的定义来选择一个。

如果我了解输出数组是什么(预测值的数组),线性回归或其任何变体(如贝叶斯回归)都适合您的方法。你应该把你的训练样本分成两个不同的集合,一个是你实际训练预测器的训练集,另一个是用来测试参数性能的测试集。为每个输出值提供不同的预测器实例也是一个不错的举措。