Python扩展在操作大列表时会创建无效指针
Python extension creates invalid pointers when manipulating large lists
我设法为python列表实现了一个Fisher–Yates shuffle函数,作为习惯扩展python的练习。它非常适用于相对较小的列表,除非我多次运行该函数。
每当列表大小超过100时,我就会遇到各种各样的内存问题:
>>>import evosutil
>>> a=[i for i in range(100)]
>>> evosutil.shuffle(a)
>>> a
[52, 66, 0, 58, 41, 18, 50, 37, 81, 43, 74, 49, 90, 20, 63, 32, 89, 60, 2, 44, 3, 80, 15, 24, 22, 69, 86, 31, 56, 68, 34, 13, 38, 26, 14, 91, 73, 79, 39, 65, 5, 75, 84, 55, 7, 53, 93, 42, 40, 9, 51, 82, 29, 30, 99, 64, 33, 97, 27, 11, 6, 67, 16, 94, 95, 62, 57, 17, 78, 77, 71, 98, 72, 8, 88, 36, 85, 59, 21, 96, 23, 46, 10, 12, 48, 83, 4, 92, 45, 54, 1, 25, 19, 70, 35, 61, 47, 28, 87, 76]
>>> (Ctrl-D)
*** Error in `python3': free(): invalid next size (fast): 0x083fe680 ***
或者,当尝试对包含1000个元素的列表进行操作时:
*** Error in `python3': munmap_chunk(): invalid pointer: 0x083ff0e0 ***
或者,
Segmentation fault (core dumped)
这是我为产生错误的模块编写的代码:
inline void _List_SwapItems(PyObject* list, Py_ssize_t i1, Py_ssize_t i2){
PyObject* tmp=PyList_GetItem(list, i2);
PyList_SetItem(list, i2, PyList_GetItem(list, i1));
PyList_SetItem(list, i1, tmp);
}
//Naive Fisher–Yates shuffle
static PyObject* shuffle(PyObject* self, PyObject* args){
PyObject* list;
PyArg_ParseTuple(args,"O", &list);
unsigned seed = std::chrono::system_clock::now().time_since_epoch().count();
std::minstd_rand0 rand(seed);
Py_ssize_t size = PyList_Size(list);
for(int i=0; i<size;++i){
int randIndex = rand()%size;
_List_SwapItems(list, randIndex, i);
}
Py_RETURN_NONE;
}
我觉得我应该能够用free()或Py_DECREF()在某个地方解决这个问题,但我不知道在哪里。我不认为我在创建任何对象,只是在移动它们。那么,记忆力问题是从哪里来的呢?
在将这两个对象传递给PyList_SetItem()
之前,需要先Py_XINCREF()
。此外,抓住i1 == i2
:的特殊情况
inline void _List_SwapItems(PyObject* list, Py_ssize_t i1, Py_ssize_t i2){
if (i1 == i2) {
return;
}
PyObject* obj1=PyList_GetItem(list, i1);
PyObject* obj2=PyList_GetItem(list, i2);
Py_XINCREF(obj1);
Py_XINCREF(obj2);
PyList_SetItem(list, i2, obj1);
PyList_SetItem(list, i1, obj2);
}
PyList_GetItem()
返回一个借用的引用,即它不INCREF
它返回的对象。如果您没有任何其他引用,则引用计数将为1
(因为它仅从列表中引用)。当您调用PyList_SetItem(list, i2, ...)
时,列表Py_XDECREF()
是以前存储在i2
中的对象(保存在tmp
中)。此时,refcount达到0
,对象被释放。哇。
同样,你不能只调用PyList_SetItem(list, i, PyList_GetItem())
,因为SetItem
会窃取你传递给它的引用。你不拥有这个引用,但"旧"列表拥有。所以你也需要一个Py_XINCREF
。
有关更多详细信息,请参阅API文档列表。
作为进一步的建议,您可以考虑不直接针对Python扩展API进行编程。完成任何事情都需要大量的代码,而且要保持引用数的正确性也非常困难。到目前为止,还有多种其他方法可以将Python与C或C++接口。CFFI似乎是Python生态系统将标准化的底层接口。不过,SIP和SWIG可能会为C++提供更好的支持。有关SIP示例,请参阅此答案。
除了引用计数错误之外,您的扩展函数还有更多问题,更多问题如下:
虽然具有正确引用计数的PyList_SetItem
是首选方式,但一个(丑陋的)选项是使用PyList_SET_ITEM
宏,该宏可以执行INCRFs:
void PyList_SET_ITEM(PyObject *list, Py_ssize_t i, PyObject *o)
PyList_SetItem()
的宏形式,无错误检查。这通常只用于填写以前没有的新列表所容纳之物注意
该宏"窃取"对项的引用,并且与
PyList_SetItem()
不同,它不会丢弃对任何项的引用被替换;在位置CCD_ 20的列表中的任何引用都将被泄露。
因此,PyList_SET_ITEM
既不递增也不递减任何引用计数器,这对我们来说很合适,因为最初和最后的元素都在同一列表中。
inline void _List_SwapItems(PyObject* list, Py_ssize_t i1, Py_ssize_t i2){
PyObject* tmp = PyList_GET_ITEM(list, i2);
PyList_SET_ITEM(list, i2, PyList_GET_ITEM(list, i1));
PyList_SET_ITEM(list, i1, tmp);
}
请注意,这根本不进行任何错误检查,因此需要确保索引在边界内(for
循环负责处理)。
您的代码有另一个尚未讨论的坏问题-完全缺乏错误检查。例如,当传入一个非列表对象时,应该引发一个TypeError
。现在代码将在PyList_Size
失败,返回-1并设置内部异常,这可能导致所有未来C扩展的错误行为:
同样,如果中传递的参数数量不正确,PyArg_ParseTuple
和将失败,因此您必须检查其返回值;在这种情况下,list
可能未初始化,您的代码将具有完全未定义的行为。
C-API文件规定如下:
当一个函数因为它调用的某个函数失败而必须失败时,它通常不设置错误指示器;它调用的函数已设置。它负责处理错误和清除异常或在清除所有资源后返回保持(例如对象引用或内存分配)不应该如果不准备处理错误,则正常继续。如果由于错误而返回,重要的是向调用者指示已设置错误。如果错误没有得到处理或小心处理传播的,对Python/C API的额外调用可能不会有意且可能以神秘的方式失败
因此,这里是编写扩展函数的正确方法:
static PyObject* shuffle(PyObject* self, PyObject* args){
PyObject* list;
if (! PyArg_ParseTuple(args, "O", &list)) {
// PyArg_ParseTuple set the proper exception
return NULL;
}
if (! PyList_Check(list)) {
PyErr_SetString(PyExc_TypeError,
"bad argument to shuffle; list expected");
return NULL;
}
unsigned seed = std::chrono::system_clock::now().time_since_epoch().count();
std::minstd_rand0 rand(seed);
Py_ssize_t size = PyList_Size(list);
for(int i=0; i<size;++i){
int randIndex = rand()%size;
_List_SwapItems(list, randIndex, i);
}
Py_RETURN_NONE;
}
- 使用 SQLConfig数据源创建 SQL Server DSN 失败:关键字-值对无效
- 在 c++ 中使用 getter 作为unordered_map会创建大小为 8 的无效读取
- 无法在硬件模式下创建 SGX 安全区 - "invalid launch token"即使文档将无效的启动令牌指定为第一个
- 创建对链表向量时 Gnu 编译器的错误:无效使用"::"
- 当从一个应用程序调用时,在DLL方法中创建COM接口指针是有效的,但当从另一个应用软件调用时则无效
- 只要我不使用它,我是否可以安全地创建对可能无效内存的引用?
- 在堆栈C++上创建的对象中存在无效数据
- Python扩展在操作大列表时会创建无效指针
- XML从UnicodeString创建CData节点时出现无效字符
- 将"sizeof"应用于不完整的类型(创建的类)无效
- 销毁和重新创建一个对象会使指向该对象的所有指针无效吗
- 尝试创建 posix 线程并获得从 'void*' 到 'void* (__attribute__((__cdecl__)) *)(void*) 错误的无效转换
- 通过重新解释强制转换创建无效引用
- 为无效字符创建循环
- 为什么'CreateEvent'创建的 HANDLE 在另一个进程中无效?
- OpenGL 创建 glShaderObject 时出现无效枚举错误
- xerces_3_1能够在注释和处理指令中创建无效的 xml
- QDomElement在创建它的函数之外是否无效?
- 如果向量有足够的空间(通过保留创建),std::vector::insert()是否会使迭代器无效
- 如何检测传递到创建过程中的无效命令