如何创建一个类似std::vector的类,它可以二进制读取/写入巨大的块
How to create a std::vector-like class which can binary read/write huge chunks?
问题
我有一段旧的stl之前的C++代码,我想在不损失效率的情况下将其翻译成std C++11。
using T = unsigned; // but can be any POD
FILE* fp = fopen( outfile.c_str(), "r" );
T* x = new T[big_n];
fread( x, sizeof(T), big_n, fp );
delete[] x;
fclose( fp );
请注意,big_n确实很大——就像数百万条记录一样大,所以任何低效都是显而易见的。
以前的解决方案
在我上一个问题的答案中,我接受了这个解决方案:
std::vector<T> x(big_n);
fread(x.data(), sizeof(T), big_n, fp);
问题和尝试的解决方案
以前的解决方案是有效的,但构造函数实际上调用了T的默认构造函数big_n次。当big_n真的很大时,这是非常慢的(而且完全没有必要,因为我要从磁盘中fread()整个块)。FWIW,在我的一个文件的测试案例中,它花费了3秒,而不是200秒。
所以我试着用这个来代替:
std::vector<T> x;
x.reserve( big_n );
fread(x.data(), sizeof(T), big_n, fp);
这似乎有效,但后来我遇到了size()返回0而不是big_n的问题。
如何在不损失太多效率的情况下更正此问题
附录
我刚刚注意到std::vector<>
可以使用自定义分配器。使用这种形式的构造函数能解决我的问题吗?我现在正在研究这种方法。
什么对我有效
除了jrok的简单数组解决方案外,我还在下面研究了Ali的自定义分配器解决方案。我决定调整jrock的解决方案,以便于理解/降低维护成本。
我想出的工作代码如下:
#include <vector>
#include <set>
#include <memory>
#include <fstream>
#include <iostream>
#include <cassert>
struct Foo
{
int m_i;
Foo() { }
Foo( int i ) : m_i( i ) { }
bool operator==( Foo const& rhs ) const { return m_i==rhs.m_i; }
bool operator!=( Foo const& rhs ) const { return m_i!=rhs.m_i; }
friend std::ostream& operator<<( std::ostream& os, Foo const& rhs )
{ os << rhs.m_i; }
};
// DESIGN NOTES /*{{{*/
//
// LIMITATION T must be a POD so we can fread/fwrite quickly
//
// WHY DO WE NEED THIS CLASS?
//
// We want to write a large number of small PODs to disk and read them back without
// 1. spurious calls to default constructors by std::vector
// 2. writing to disk a gazillion times
//
// SOLUTION
// A hybrid class containing a std::vector<> for adding new items and a
// std::unique_ptr<T[]> for fast persistence. From the user's POV, it looks
// like a std::vector<>.
//
// Algorithm
// 1. add new items into:
// std::vector<T> m_v;
// 2. when writing to disk, write out m_v as a chunk
// 3. when reading from disk, read into m_chunk (m_v will start empty again)
// 4. m_chunk and m_v combined will represent all the data
/*}}}*/
template<typename T>
class vector_chunk
{
// STATE /*{{{*/
size_t m_n_in_chunk;
std::unique_ptr<T[]> m_chunk;
std::vector<T> m_v;
/*}}}*/
// CONSTRUCTOR, INITIALIZATION /*{{{*/
public:
vector_chunk() : m_n_in_chunk( 0 ) { }
/*}}}*/
// EQUALITY /*{{{*/
public:
bool operator==( vector_chunk const& rhs ) const
{
if ( rhs.size()!=size() )
return false;
for( size_t i=0; i<size(); ++i )
if ( operator[]( i )!=rhs[i] )
return false;
return true;
}
/*}}}*/
// OSTREAM /*{{{*/
public:
friend std::ostream& operator<<( std::ostream& os, vector_chunk const& rhs )
{
for( size_t i=0; i<rhs.m_n_in_chunk; ++i )
os << rhs.m_chunk[i] << "n";
for( T const& t : rhs.m_v )
os << rhs.t << "n";
}
/*}}}*/
// BINARY I/O /*{{{*/
public:
void write_as_binary( std::ostream& os ) const
{
// write everything out
size_t const n_total = size();
os.write( reinterpret_cast<const char*>( &n_total ), sizeof( n_total ));
os.write( reinterpret_cast<const char*>( &m_chunk[0] ), m_n_in_chunk * sizeof( T ));
os.write( reinterpret_cast<const char*>( m_v.data() ), m_v.size() * sizeof( T ));
}
void read_as_binary( std::istream& is )
{
// only read into m_chunk, clear m_v
is.read( reinterpret_cast<char*>( &m_n_in_chunk ), sizeof( m_n_in_chunk ));
m_chunk.reset( new T[ m_n_in_chunk ] );
is.read( reinterpret_cast<char*>( &m_chunk[0] ), m_n_in_chunk * sizeof( T ));
m_v.clear();
}
/*}}}*/
// DELEGATION to std::vector<T> /*{{{*/
public:
size_t size() const { return m_n_in_chunk + m_v.size(); }
void push_back( T const& value ) { m_v.push_back( value ); }
void push_back( T&& value ) { m_v.push_back( value ); }
template< class... Args >
void emplace_back( Args&&... args ) { m_v.emplace_back( args... ); }
typename std::vector<T>::const_reference
operator[]( size_t pos ) const
{ return ((pos < m_n_in_chunk) ? m_chunk[ pos ] : m_v[ pos - m_n_in_chunk]); }
typename std::vector<T>::reference
operator[]( size_t pos )
{ return ((pos < m_n_in_chunk) ? m_chunk[ pos ] : m_v[ pos - m_n_in_chunk]); }
/*}}}*/
};
int main()
{
size_t const n = 10;
vector_chunk<Foo> v, w;
for( int i=0; i<n; ++i )
v.emplace_back( Foo{ i } );
std::filebuf ofb, ifb;
std::unique_ptr<std::ostream> osp;
std::unique_ptr<std::istream> isp;
ofb.open( "/tmp/junk.bin", (std::ios::out | std::ios::binary));
osp.reset( new std::ostream( &ofb ));
v.write_as_binary( *osp );
ofb.close();
ifb.open( "/tmp/junk.bin", (std::ios::in | std::ios::binary));
isp.reset( new std::istream( &ifb ));
w.read_as_binary( *isp );
ifb.close();
assert( v==w );
}
使用vector::reserve()
然后写入vector::data()
是一种肮脏的破解和未定义的行为。请不要那样做。
解决这个问题的方法是使用自定义分配器,比如这个答案中的分配器。我刚刚测试过它,它在clang 3.5 trunk中运行良好,但没有用gcc 4.7.2编译。
尽管,正如其他人已经指出的那样,unique_ptr<T[]>
将很好地满足您的需求。
如果您不需要矢量的接口:
auto p = unique_ptr<T[]>{ new T[big_n] };
如果T
是POD,它不会初始化数组,否则它会调用默认构造函数(默认初始化)。
在C++1y中,您将能够使用std::make_unique
。
如果您可以选择使用boost,则自1.55版本以来,boost::container::vector在使用语法调整大小时支持显式默认初始化元素:
using namespace boost::container;
vector<T> vector(37283, default_init);
在创建或时
using namespace boost::container;
vector.resize(37283, default_init);
创建之后。这产生了很好的语法:
using T = unsigned; // but can be any trivially copyable type
FILE* fp = fopen( outfile.c_str(), "r" );
boost::container::vector<T> x(big_n, boost::container::default_init);
fread( x.data(), sizeof(T), big_n, fp );
fclose( fp );
在我的测试中,性能与使用默认初始化分配器的std::vector
相同。
编辑:不相关,我会使用RAII包装FILE*
:
struct FILE_deleter {
void operator () (FILE* f) const {
if (f) fclose(f);
}
};
using FILE_ptr = std::unique_ptr<FILE, FILE_deleter>;
using T = unsigned; // but can be any trivially copyable type
FILE_ptr fp{fopen( outfile.c_str(), "r" )};
boost::container::vector<T> x(big_n, boost::container::default_init);
fread( x.data(), sizeof(T), big_n, fp.get() );
我对RAII有点强迫症。
编辑2:如果您绝对必须生成std::vector<T>
,而不是boost::container::vector<T>
或std::vector<T, default_allocator<T>>
,那么另一个选项是从自定义迭代器对填充std::vector<T>
。以下是制作fread
迭代器的一种方法:
template <typename T>
class fread_iterator :
public boost::iterator_facade<fread_iterator<T>, T,
std::input_iterator_tag, T> {
friend boost::iterator_core_access;
bool equal(const fread_iterator& other) const {
return (file_ && feof(file_)) || n_ <= other.n_;
}
T dereference() const {
// is_trivially_copyable is sufficient, but libstdc++
// (for whatever reason) doesn't have that trait.
static_assert(std::is_pod<T>::value,
"Jabberwocky is killing user.");
T result;
fread(&result, sizeof(result), 1, file_);
return result;
}
void increment() { --n_; }
FILE* file_;
std::size_t n_;
public:
fread_iterator() : file_(nullptr), n_(0) {}
fread_iterator(FILE* file, std::size_t n) : file_(file), n_(n) {}
};
(我使用了boost::iterator_facade来减少迭代器样板。)这里的想法是编译器可以省略dereference
的返回值的move构造,这样fread
将直接读取到vector
的内存缓冲区中。与分配器修改方法只调用一次相比,每个项调用fread
一次可能会降低效率,但也没什么太可怕的,因为(a)文件数据仍然只从stdio缓冲区复制到向量中一次,(b)缓冲IO的整个点是为了使粒度的影响更小。您可以使用其assign(iterator, iterator)
成员填充矢量:
using T = unsigned; // but can be any trivially copyable type
FILE_ptr fp{fopen( outfile.c_str(), "r" )};
std::vector<T> x;
x.reserve(big_n);
x.assign(fread_iterator<T>{fp.get(), big_n}, fread_iterator<T>{});
将所有这些放在一起并并行测试,这个迭代器方法比使用自定义分配器方法或boost::container::vector
慢大约10%。分配器和boost方法具有几乎相同的性能。
既然要升级到c++11,为什么不使用文件流呢?我只是试着用ifstream&然后使用ofstream将内容写入文件。
我在一个循环中运行了15次相同的应用程序,它所花费的最大时间是320毫秒,最小时间是120毫秒。
std::unique_ptr<char []> ReadToEnd(const char* filename)
{
std::ifstream inpfile(filename, std::ios::in | std::ios::binary | std::ios::ate);
std::unique_ptr<char[]> ret;
if (inpfile.is_open())
{
auto sz = static_cast<size_t>(inpfile.tellg());
inpfile.seekg(std::ios::beg);
ret.reset(new char[sz + 1]);
ret[sz] = ' ';
inpfile.read(ret.get(), sz);
}
return ret;
}
int main(int argc, char* argv [])
{
auto data = ReadToEnd(argv[1]);
std::cout << "Num of characters in file:" << strlen(data.get()) << "n";
std::ofstream outfile("output.txt");
outfile.write(data.get(), strlen(data.get()));
}
输出
D: \code\cpp\ConsoleApplication1\Release>ConsoleApplication1.exe D:\code\cpp \SampleApp\Release \output.txt
文件中的字符数:18805057
读取文件所花费的时间D:\code\cpp \SampleApp \Release \output.txt:152.008 ms。
- 正在读取二进制文件(is_open)
- 如何从二进制文件中读取字符串
- 如何从dicom文件中读取二进制数据
- 从二进制文件中读取整数数组
- C++:实际上不是从二进制文件中读取
- C++用于从流中读取二进制值的任何标准库
- 将内部带有矢量的结构保存/读取到二进制文件中
- 从 c++ 到 python 的二进制读取器
- 使用二进制读取和写入连接文件
- 一次从二进制读取 4 个字节(C++)
- 无效操作数以二进制读取结构的阵列
- 当写和读在不同的文件中时,C++二进制读取会产生segfault,但放在一个文件中的相同代码可以工作
- 如何创建一个类似std::vector的类,它可以二进制读取/写入巨大的块
- 如何二进制读取 7z 存档
- C++ iostream 二进制读取和写入问题
- 从二进制读取 2D 浮点数组,从 char* 转换为浮点数[2]
- 二进制读取mp3文件的ID3标记
- 将二进制读取函数从C++转换为C#
- 二进制读取器在读取确切的字节数时未触发eof位
- 二进制读取和编写复杂的c++结构