试图在Python中有效地计算相关矩阵

Trying to compute correlation matrix efficiently in python

本文关键字：计算有效地 Python 更新时间：2023-10-16

我有一个很大的数据阵列（100k列按7k行），我想计算所有成对的Pearson相关性（〜（100,000^2）/2 = 50亿相关性）在列之间。阵列几乎不适合RAM，因此简单的方法不会削减它，我也想相当有效地做到这一点。是否有任何方法可以这样做（最好在Python中，尽管C/C 也可以接受）？任何与之并行的方法也将非常有帮助，因为我想在合理的时间内完成它。

我已经尝试使用numpy.corrcoef函数，但这仅使用了一个处理器，并且还丢下了一个内存错误。

我正在使用Deepgraph库并行运行此操作。我遵循了他们在那里的教程来产生大型相关矩阵。它现在正在运行，似乎需要（仅！！）在我的8*3.4GHz机器上2个小时。我正在使用我的16GB RAM中的大部分来执行此操作，但似乎一切都融为一体。