Cython与C++接口:大型阵列的分段错误
Cython interfaced with C++: segmentation fault for large arrays
我正在将我的代码从使用 ctypes 接口的 Python/C 转移到使用 Cython 接口的 Python/C++。新界面将使我更容易维护代码,因为我可以利用所有C++功能,并且需要相对较少的界面代码行。
接口代码非常适合小数组。但是,在使用大型数组时会遇到分段错误。我一直在思考这个问题,但还没有更接近解决方案。我包括了一个发生分段错误的最小示例。请注意,它始终发生在Linux和Mac上,而且valgrind也没有提供见解。另请注意,纯C++中完全相同的示例确实可以正常工作。
该示例包含 C++ 中的稀疏矩阵类(部分)。在 Cython 中创建了一个接口。因此,可以从 Python 使用该类。
C++面
sparse.h
#ifndef SPARSE_H
#define SPARSE_H
#include <iostream>
#include <cstdio>
using namespace std;
class Sparse {
public:
int* data;
int nnz;
Sparse();
~Sparse();
Sparse(int* data, int nnz);
void view(void);
};
#endif
sparse.cpp
#include "sparse.h"
Sparse::Sparse()
{
data = NULL;
nnz = 0 ;
}
Sparse::~Sparse() {}
Sparse::Sparse(int* Data, int NNZ)
{
nnz = NNZ ;
data = Data;
}
void Sparse::view(void)
{
int i;
for ( i=0 ; i<nnz ; i++ )
printf("(%3d) %dn",i,data[i]);
}
赛通接口
csparse.pyx
import numpy as np
cimport numpy as np
# UNCOMMENT TO FIX
#from cpython cimport Py_INCREF
cdef extern from "sparse.h":
cdef cppclass Sparse:
Sparse(int*, int) except +
int* data
int nnz
void view()
cdef class PySparse:
cdef Sparse *ptr
def __cinit__(self,**kwargs):
cdef np.ndarray[np.int32_t, ndim=1, mode="c"] data
data = kwargs['data'].astype(np.int32)
# UNCOMMENT TO FIX
#Py_INCREF(data)
self.ptr = new Sparse(
<int*> data.data if data is not None else NULL,
data.shape[0],
)
def __dealloc__(self):
del self.ptr
def view(self):
self.ptr.view()
setup.py
from distutils.core import setup, Extension
from Cython.Build import cythonize
setup(ext_modules = cythonize(Extension(
"csparse",
sources=["csparse.pyx", "sparse.cpp"],
language="c++",
)))
蟒蛇端
import numpy as np
import csparse
data = np.arange(100000,dtype='int32')
matrix = csparse.PySparse(
data = data
)
matrix.view() # --> segmentation fault
要运行:
$ python setup.py build_ext --inplace
$ python example.py
请注意,data = np.arange(100,dtype='int32')
确实有效。
内存由您的 numpy 数组管理。一旦它们超出范围(很可能在PySparse
构造函数的末尾),数组就不复存在,并且所有指针都无效。这适用于大型和小型数组,但大概您只是幸运地使用小数组。
您需要保留对在PySparse
对象的生存期内使用的所有 numpy 数组的引用:
cdef class PySparse:
# ----------------------------------------------------------------------------
cdef Sparse *ptr
cdef object _held_reference # added
# ----------------------------------------------------------------------------
def __cinit__(self,**kwargs):
# ....
# your constructor code code goes here, unchanged...
# ....
self._held_reference = [data] # add any other numpy arrays you use to this list
通常,每当处理C/C++指针时,您都需要非常认真地考虑谁拥有什么,这与普通的Python方法相比是一个很大的变化。从 numpy 数组获取指针不会复制数据,也不会给 numpy 任何指示您仍在使用数据。
编辑说明:在我的原始版本中,我尝试使用 locals()
作为收集我想要保留的所有数组集合的快速方法。不幸的是,这似乎不包括 ed 数组cdef
因此它无法保留您实际使用的数组(请注意,除非您另有说明,否则astype()
会制作副本,因此您需要保留对副本的引用,而不是作为参数传入的原始内容)。
- 当我的阵列太大时出现分段错误
- 仅在大型阵列上出现合并排序分段错误
- 访问特定阵列位置/索引时出现分段错误
- 动态 2D 阵列.为什么分段错误?
- 分配给阵列时出现分段错误?黑客排名 2D 阵列 - DS.
- 删除阵列时出现分段错误
- 保护类内存阵列以检测分段错误
- 分段错误 - C++阵列
- 分段错误(核心转储)动态阵列
- 阵列访问期间出现分段错误
- C++ 2D 阵列分配内存以避免分段错误
- 由于阵列大小而导致分段错误?
- 阵列分段错误
- 写入阵列时出现分段错误
- Cython与C++接口:大型阵列的分段错误
- 分段故障核心转储的并行阵列
- 阵列分段错误
- 分配动态阵列C++期间的分段错误
- 分段故障字符阵列
- Boost多阵列分段故障