c++强化学习和智能指针

C++ Reinforcement learning and smart pointers

本文关键字：智能指针学习化学 c++ 更新时间：2023-10-16

我正在做我的硕士项目关于机器人的感觉运动在线学习使用强化学习方法(Q,sarsa,TD(λ)，Actor-Critic,R等)。我目前正在设计一个框架，在这个框架上，高级强化学习和低级机器人API控制都将使用。

由于状态依赖于机器人传感器，并且可能(将)呈指数增长，因此我将在堆上分配它们。因为这会产生很多问题，bug等，而且因为并行化(即线程化)是我想探索的强化学习的一个方面，我还不确定使用哪种智能指针。

为智能指针设计我自己的模板/类需要时间和调试，我没有这些时间。所以，我想知道，我应该使用STL的auto_ptr吗?我看到它们在矢量中有问题。我应该用boost::shared_ptr吗?这些状态必须在许多类和算法之间共享。或者我应该用boost::ptr_vector ?由于状态将驻留在vector中的任务容器类中，这是否足够?这些状态必须是共享的、可复制的、可引用的、可序列化的、非常量的、线程安全的，并且不能被删除。此外，内存空间和计算时间也很重要。

对于这样的任务，你推荐什么是最好的智能ptr实现?

谢谢!

似乎我将不得不尝试使用boost::ptr_vector与类状态，如果这证明是无效的，然后使用std::vector 并启用0X。谢谢大家的回答和建议!

单所有权指针更难被误用，对std::auto_ptr的设计进行调整。您可以考虑使用boost::scoped_ptr，这是更安全的(它不能转移所有权，但不能从函数返回)。当涉及到容器时，可以使用指针容器，但如果涉及的类型不是多态使用，则使用例如std::vector而不使用智能指针也很好。

共享所有权应该是例外情况;不要过度使用boost::shared_ptr .

其他建议缺少一个。boost::intrusive_ptr比shared_ptr性能更好，因为它不需要第二次分配来保存引用计数。intrusive_ptr的缺点是需要一点点额外的记账，而且不能使用weak_ptr。

我在做c++的时候从来没有找到一个我喜欢的智能ptr类。最后我自己写了。

它有一个高速缓存功能，所以如果你一直分配和释放内存，它可以挂起它所拥有的内存并重用它。它也没有默认构造函数，所以你必须通过引用将其传递给函数/方法，否则编译器会显示一个错误，这是为了它不会创建内存的临时副本，特别是在处理大型图像文件时。

编写自己的代码不会花费太长时间，您也可以添加自己的边界检查代码。