提高通过 ctypes 将数据从 Python 传递到 C(++）的速度

Improve speed of passing data from Python to C(++) via ctypes

本文关键字：速度 ctypes 高通过数据 Python 更新时间：2023-10-16

我需要为时间关键型机器人应用程序优化循环中的函数调用。我的脚本是用python编写的，它通过ctypes与我编写的C++库接口，然后调用微控制器库。

瓶颈是向微控制器缓冲器添加位置-速度-时间点。根据我的计时检查，通过 ctypes 调用 C++ 函数大约需要 0.45 秒，而在C++端，被调用的函数需要 0.17 秒。我需要以某种方式减少这种差异。

以下是相关的 python 代码，其中数据是点的 2D 数组，clibrary 通过 ctypes 加载：

data_np = np.vstack([nodes, positions, velocities, times]).transpose().astype(np.long)
data = ((c_long * 4) * N)()
for i in range(N):
    data[i] = (c_long * 4)(*data_np[i])
timer = time()
clibrary.addPvtAll(N, data)
print("clibrary.addPvtAll() call: %f" % (time() - timer))

这是所谓的C++函数：

void addPvtAll(int N, long data[][4]) {
    clock_t t0, t1;
    t0 = clock();
    for(int i = 0; i < N; i++) {
        unsigned short node = (unsigned short)data[i][0];
        long p = data[i][1];
        long v = data[i][2];
        unsigned char t = (unsigned char)data[i][3];
        VCS_AddPvtValueToIpmBuffer(device(node), node, p, v, t, &errorCode);
    }
    t1 = clock();
    printf("addPvtAll() call: %f n", (double(t1 - t0) / CLOCKS_PER_SEC));
}

我不是绝对需要使用ctypes，但我不想每次运行它时都必须编译Python代码。

Python

和 C++ 之间的往返可能很昂贵，尤其是在使用 ctypes 时(这类似于普通 C/Python 包装器的解释版本(。

您的目标应该是尽量减少行程次数，并在每次行程中尽可能多地完成工作。

在我看来，您的代码粒度太细(即每次旅行都做太多而做的工作太少(。

numpy 包可以直接向 C/C++ 公开其数据。这将让你避免昂贵的Python对象装箱和拆箱(以及随之而来的内存分配(，并且它将允许你传递一系列数据点，而不是一次传递一个点。

修改C++代码以一次处理多个点，而不是每次调用一次(就像 sqlite3 模块对执行与执行所做的那样(。

这是我的解决方案，它有效地消除了Python和C之间的测量时间差。感谢kirbyfan64sos建议SWIG和Raymond Hettinger在numpy中用于C数组。我在 Python 中使用了一个 numpy 数组，它纯粹作为指针发送到 C - 两种语言都访问相同的内存块。

C 函数保持不变，除了使用 gettimeofday() 而不是 clock() ，这给出了不准确的时间：

void addPvtFrame(int pvt[6][4]) {
    timeval start,stop,result;
    gettimeofday(&start, NULL);
    for(int i = 0; i < 6; i++) {
        unsigned short node = (unsigned short)pvt[i][0];
        long p = (long)pvt[i][1];
        long v = (long)pvt[i][2];
        unsigned char t = (unsigned char)pvt[i][3];
        VCS_AddPvtValueToIpmBuffer(device(node), node, p, v, t, &errorCode);
    }
    gettimeofday(&stop, NULL);
    timersub(&start,&stop,&result);
    printf("Add PVT time in C code: %fsn", -(result.tv_sec + result.tv_usec/1000000.0));
}

此外，我安装了 SWIG 并在我的接口文件中包含以下内容：

%include "numpy.i"
%init %{
    import_array();
%}
%apply ( int INPLACE_ARRAY2[ANY][ANY] ) {(int pvt[6][4])}

最后，我的 Python 代码通过 numpy 将pvt构造为连续数组：

pvt = np.vstack([nodes, positions, velocities, times])
pvt = np.ascontiguousarray(pvt.transpose().astype(int))
timer = time()
xjus.addPvtFrame(pvt)
print("Add PVT time to C code: %fs" % (time() - timer))

现在，测量的时间在我的机器上大约有 %1 的差异。

你可以

只使用data_np.data.tobytes()：

data_np = np.vstack([nodes, positions, velocities, times]).transpose().astype(np.long)
timer = time()
clibrary.addPvtAll(N, data_np.data.tobytes())
print("clibrary.addPvtAll() call: %f" % (time() - timer))

提高通过 ctypes 将数据从 Python 传递到 C(++） 的速度

Improve speed of passing data from Python to C(++) via ctypes

提高通过 ctypes 将数据从 Python 传递到 C(++）的速度