试图在Python中有效地计算相关矩阵

Trying to compute correlation matrix efficiently in python

本文关键字:计算 有效地 Python      更新时间:2023-10-16

我有一个很大的数据阵列(100k列按7k行),我想计算所有成对的Pearson相关性(〜(100,000^2)/2 = 50亿相关性)在列之间。阵列几乎不适合RAM,因此简单的方法不会削减它,我也想相当有效地做到这一点。是否有任何方法可以这样做(最好在Python中,尽管C/C 也可以接受)?任何与之并行的方法也将非常有帮助,因为我想在合理的时间内完成它。

我已经尝试使用numpy.corrcoef函数,但这仅使用了一个处理器,并且还丢下了一个内存错误。

我正在使用Deepgraph库并行运行此操作。我遵循了他们在那里的教程来产生大型相关矩阵。它现在正在运行,似乎需要(仅!!)在我的8*3.4GHz机器上2个小时。我正在使用我的16GB RAM中的大部分来执行此操作,但似乎一切都融为一体。