- 添加 HostDeviceMem 类(Buffer Pool) - _allocate_buffers() init 阶段一次性分配 - infer() 使用 async API + CUDA stream - 回退机制:pagelocked 失败时用普通 numpy
- 添加 HostDeviceMem 类(Buffer Pool) - _allocate_buffers() init 阶段一次性分配 - infer() 使用 async API + CUDA stream - 回退机制:pagelocked 失败时用普通 numpy