提高通过 ctypes 将数据从 Python 传递到 C(++) 的速度

Improve speed of passing data from Python to C(++) via ctypes

本文关键字:速度 ctypes 高通过 数据 Python      更新时间:2023-10-16

我需要为时间关键型机器人应用程序优化循环中的函数调用。我的脚本是用python编写的,它通过ctypes与我编写的C++库接口,然后调用微控制器库。

瓶颈是向微控制器缓冲器添加位置-速度-时间点。根据我的计时检查,通过 ctypes 调用 C++ 函数大约需要 0.45 秒,而在C++端,被调用的函数需要 0.17 秒。我需要以某种方式减少这种差异。

以下是相关的 python 代码,其中数据是点的 2D 数组,clibrary 通过 ctypes 加载:

data_np = np.vstack([nodes, positions, velocities, times]).transpose().astype(np.long)
data = ((c_long * 4) * N)()
for i in range(N):
    data[i] = (c_long * 4)(*data_np[i])
timer = time()
clibrary.addPvtAll(N, data)
print("clibrary.addPvtAll() call: %f" % (time() - timer))

这是所谓的C++函数:

void addPvtAll(int N, long data[][4]) {
    clock_t t0, t1;
    t0 = clock();
    for(int i = 0; i < N; i++) {
        unsigned short node = (unsigned short)data[i][0];
        long p = data[i][1];
        long v = data[i][2];
        unsigned char t = (unsigned char)data[i][3];
        VCS_AddPvtValueToIpmBuffer(device(node), node, p, v, t, &errorCode);
    }
    t1 = clock();
    printf("addPvtAll() call: %f n", (double(t1 - t0) / CLOCKS_PER_SEC));
}

我不是绝对需要使用ctypes,但我不想每次运行它时都必须编译Python代码。

Python

和 C++ 之间的往返可能很昂贵,尤其是在使用 ctypes 时(这类似于普通 C/Python 包装器的解释版本(。

您的目标应该是尽量减少行程次数,并在每次行程中尽可能多地完成工作。

在我看来,您的代码粒度太细(即每次旅行都做太多而做的工作太少(。

numpy 包可以直接向 C/C++ 公开其数据。 这将让你避免昂贵的Python对象装箱和拆箱(以及随之而来的内存分配(,并且它将允许你传递一系列数据点,而不是一次传递一个点。

修改C++代码以一次处理多个点,而不是每次调用一次(就像 sqlite3 模块对执行执行所做的那样(。

这是我的解决方案,它有效地消除了Python和C之间的测量时间差。 感谢kirbyfan64sos建议SWIG和Raymond Hettinger在numpy中用于C数组。我在 Python 中使用了一个 numpy 数组,它纯粹作为指针发送到 C - 两种语言都访问相同的内存块。

C 函数保持不变,除了使用 gettimeofday() 而不是 clock() ,这给出了不准确的时间:

void addPvtFrame(int pvt[6][4]) {
    timeval start,stop,result;
    gettimeofday(&start, NULL);
    for(int i = 0; i < 6; i++) {
        unsigned short node = (unsigned short)pvt[i][0];
        long p = (long)pvt[i][1];
        long v = (long)pvt[i][2];
        unsigned char t = (unsigned char)pvt[i][3];
        VCS_AddPvtValueToIpmBuffer(device(node), node, p, v, t, &errorCode);
    }
    gettimeofday(&stop, NULL);
    timersub(&start,&stop,&result);
    printf("Add PVT time in C code: %fsn", -(result.tv_sec + result.tv_usec/1000000.0));
}

此外,我安装了 SWIG 并在我的接口文件中包含以下内容:

%include "numpy.i"
%init %{
    import_array();
%}
%apply ( int INPLACE_ARRAY2[ANY][ANY] ) {(int pvt[6][4])}

最后,我的 Python 代码通过 numpy 将pvt构造为连续数组:

pvt = np.vstack([nodes, positions, velocities, times])
pvt = np.ascontiguousarray(pvt.transpose().astype(int))
timer = time()
xjus.addPvtFrame(pvt)
print("Add PVT time to C code: %fs" % (time() - timer))

现在,测量的时间在我的机器上大约有 %1 的差异。

你可以

只使用data_np.data.tobytes()

data_np = np.vstack([nodes, positions, velocities, times]).transpose().astype(np.long)
timer = time()
clibrary.addPvtAll(N, data_np.data.tobytes())
print("clibrary.addPvtAll() call: %f" % (time() - timer))