Apache Avro文件处理
Apache Avro in File Processing
Apache Avro在文件处理中的用途是什么?有人能向我解释一下,如果我需要处理。lzo格式的tb数据有用吗?
我在c++和Java之间有一个选择,哪个更适合Avro?
我真正的目的是读取压缩文件,并根据一些标准将它们分类为新的不同文件。
提前感谢....:)
// Serialize user1, user2 and user3 to disk
DatumWriter<User> userDatumWriter = new SpecificDatumWriter<User> (User.class);
DataFileWriter<User> dataFileWriter = new DataFileWriter<User>(userDatumWriter);
dataFileWriter.create(user1.getSchema(), new File("users.avro"));
dataFileWriter.append(user1);
dataFileWriter.append(user2);
dataFileWriter.append(user3);
dataFileWriter.close();
在map-reduce和数据分析中,它可以帮助您避免瓶颈。在典型的ETL流中,有时所有的东西都依赖于从a点到B点的一些大数据块,如果数据被压缩,则传输速度会更快。
文件结构也针对hadoop进行了优化,它类似于"hadoop序列文件"。LZO缺乏针对hadoop的特定优化结构,但正在取得进展
http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/Arvo文件是语言无关的,LZO和Arvo都有一个C接口,从那篇文章中他们正在开发一些pig的udf,所以我希望在不久的将来看到一些pig LZO到hdfs的桥梁。
Arvo文件是基于模式的,
http://avro.apache.org/docs/current/spec.html模式这很有用,因为您可以在运行时根据模式
发现文件的格式/结构。文档是开始的好地方http://avro.apache.org/docs/current/
相关文章:
- 如何在 c++ 窗口中将参数和返回的退出值传递到批处理文件/从批处理文件获取返回的退出值
- 从之前添加的批处理文件中删除单词
- 无法从C++ Windows 服务执行批处理文件
- 处理文件期间输出失真.wav
- TOCTTOU - 在处理文件之前使用访问权限
- 如何将批处理文件的输出读取到C 中的字符串中
- cmake:生成批处理文件调用cl.exe
- 处理文件行流迭代器
- 如何运行批处理文件和读取输出
- 用文本处理文件
- GetCommandLine():无法从批处理文件(GCC-Compiler)传递多行参数
- exe文件不被识别为内部或外部命令,可操作的程序或批处理文件在C++
- 您如何使用System()调用带有引号的参数的批处理文件
- Visual Studio C - 无法输出预处理文件
- 重命名批处理文件(删除名称中的一些符号)(python/matlab/shell)
- Dokan:我应该自己处理文件共享和访问权限吗?
- C++处理文件,在制作程序时遇到麻烦
- 对桌面进行了更改.ini使用批处理文件,但文件夹图标不会更改
- 如何将字符串转换为批处理文件中的整数
- 为什么我不能在Windows Server 2008中使用System()从服务启动批处理文件