试图在Python中有效地计算相关矩阵
Trying to compute correlation matrix efficiently in python
我有一个很大的数据阵列(100k列按7k行),我想计算所有成对的Pearson相关性(〜(100,000^2)/2 = 50亿相关性)在列之间。阵列几乎不适合RAM,因此简单的方法不会削减它,我也想相当有效地做到这一点。是否有任何方法可以这样做(最好在Python中,尽管C/C 也可以接受)?任何与之并行的方法也将非常有帮助,因为我想在合理的时间内完成它。
我已经尝试使用numpy.corrcoef
函数,但这仅使用了一个处理器,并且还丢下了一个内存错误。
我正在使用Deepgraph库并行运行此操作。我遵循了他们在那里的教程来产生大型相关矩阵。它现在正在运行,似乎需要(仅!!)在我的8*3.4GHz机器上2个小时。我正在使用我的16GB RAM中的大部分来执行此操作,但似乎一切都融为一体。
相关文章:
- 有效地使用std::unordered_map来插入或增加键的值
- 有效地计算多维数组的累积和?
- 如何有效地计算将单位立方体映射到自身的反射和旋转?
- 有效地计算像素到其对应核线的距离
- 如何更有效地计算n个字符串之间的不匹配分数?
- 如何有效地计算字母字符
- 是否可以有效地计算 A % B,而不必计算 A/B
- 试图在Python中有效地计算相关矩阵
- 如何有效地计算在整个像素着色器阶段中使用颜色的次数
- 如何在 C/C++ 中有效地计算双倍到两个小数点精度
- 如何有效地计算顶部排列
- 如何有效地计算两点之间的角度
- 在有效地计算数组中第二个元素较少的对时,我哪里错了
- 有效地计算字典排序中特定元素的索引
- 如何有效地计算多面体的面面积
- 有效地计算随机排列中的第n项
- 是否有可能使用CUDA来有效地计算排序数组内元素的频率?
- 如何有效地计算已定义指针的数量
- 如何有效地计算给定数字的所有不同组合的按位异或值之和
- 如何有效地计算向量的余切