本文介绍了java 读写Parquet格式的数据,分享给大家,具体如下:
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Logger;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.GroupFactory;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetReader.Builder;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.example.GroupWriteSupport;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;
public class ReadParquet {
static Logger logger=Logger.getLogger(ReadParquet.class);
public static void main(String[] args) throws Exception {
// parquetWriter("test\\parquet-out2","input.txt");
parquetReaderV2("test\\parquet-out2");
}
static void parquetReaderV2(String inPath) throws Exception{
GroupReadSupport readSupport = new GroupReadSupport();
Builder<Group> reader= ParquetReader.builder(readSupport, new Path(inPath));
ParquetReader<Group> build=reader.build();
Group line=null;
while((line=build.read())!=null){
Group time= line.getGroup("time", 0);
//通过下标和字段名称都可以获取
/*System.out.println(line.getString(0, 0)+"\t"+
line.getString(1, 0)+"\t"+
time.getInteger(0, 0)+"\t"+
time.getString(1, 0)+"\t");*/
System.out.println(line.getString("city", 0)+"\t"+
line.getString("ip", 0)+"\t"+
time.getInteger("ttl", 0)+"\t"+
time.getString("ttl2", 0)+"\t");
//System.out.println(line.toString());
}
System.out.println("读取结束");
}
//新版本中new ParquetReader()所有构造方法好像都弃用了,用上面的builder去构造对象
static void parquetReader(String inPath) throws Exception{
GroupReadSupport readSupport = new GroupReadSupport();
ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
Group line=null;
while((line=reader.read())!=null){
System.out.println(line.toString());
}
System.out.println("读取结束");
}
/**
*
* @param outPath 输出Parquet格式
* @param inPath 输入普通文本文件
* @throws IOException
*/
static void parquetWriter(String outPath,String inPath) throws IOException{
MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
" required binary city (UTF8);\n" +
" required binary ip (UTF8);\n" +
" repeated group time {\n"+
" required int32 ttl;\n"+
" required binary ttl2;\n"+
"}\n"+
"}");
GroupFactory factory = new SimpleGroupFactory(schema);
Path path = new Path(outPath);
Configuration configuration = new Configuration();
GroupWriteSupport writeSupport = new GroupWriteSupport();
writeSupport.setSchema(schema,configuration);
ParquetWriter<Group> writer = new ParquetWriter<Group>(path,configuration,writeSupport);
//把本地文件读取进去,用来生成parquet格式文件
BufferedReader br =new BufferedReader(new FileReader(new File(inPath)));
String line="";
Random r=new Random();
while((line=br.readLine())!=null){
String[] strs=line.split("\\s+");
if(strs.length==2) {
Group group = factory.newGroup()
.append("city",strs[0])
.append("ip",strs[1]);
Group tmpG =group.addGroup("time");
tmpG.append("ttl", r.nextInt(9)+1);
tmpG.append("ttl2", r.nextInt(9)+"_a");
writer.write(group);
}
}
System.out.println("write end");
writer.close();
}
}
说下schema(写Parquet格式数据需要schema,读取的话"自动识别"了schema)
/* * 每一个字段有三个属性:重复数、数据类型和字段名,重复数可以是以下三种: * required(出现1次) * repeated(出现0次或多次) * optional(出现0次或1次) * 每一个字段的数据类型可以分成两种: * group(复杂类型) * primitive(基本类型) * 数据类型有 * INT64, INT32, BOOLEAN, BINARY, FLOAT, DOUBLE, INT96, FIXED_LEN_BYTE_ARRAY */
这个repeated和required 不光是次数上的区别,序列化后生成的数据类型也不同,比如repeqted修饰 ttl2 打印出来为 WrappedArray([7,7_a]) 而 required修饰 ttl2 打印出来为 [7,7_a] 除了用MessageTypeParser.parseMessageType类生成MessageType 还可以用下面方法
(注意这里有个坑--spark里会有这个问题--ttl2这里 as(OriginalType.UTF8) 和 required binary city (UTF8)作用一样,加上UTF8,在读取的时候可以转为StringType,不加的话会报错 [B cannot be cast to java.lang.String )
/*MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
" required binary city (UTF8);\n" +
" required binary ip (UTF8);\n" +
"repeated group time {\n"+
"required int32 ttl;\n"+
"required binary ttl2;\n"+
"}\n"+
"}");*/
//import org.apache.parquet.schema.Types;
MessageType schema = Types.buildMessage()
.required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("city")
.required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ip")
.repeatedGroup().required(PrimitiveTypeName.INT32).named("ttl")
.required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ttl2")
.named("time")
.named("Pair");
解决 [B cannot be cast to java.lang.String 异常:
1.要么生成parquet文件的时候加个UTF8
2.要么读取的时候再提供一个同样的schema类指定该字段类型,比如下面:
maven依赖(我用的1.7)
<dependency> <groupId>org.apache.parquet</groupId> <artifactId>parquet-hadoop</artifactId> <version>1.7.0</version> </dependency>
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
# java读写parquet文件
# java
# parquet
# 读写
# java写parquet文件
# java 序列化对象 serializable 读写数据的实例
# Java基于字符流形式读写数据的两种实现方法示例
# Java操作IO对象流进行数据的读写
# Java如何利用Socket进行数据读写
# 详解Java编写算法时如何加快读写数据速度
# 打印出来
# 会有
# 有个
# 两种
# 可以用
# 这个问题
# 我用
# 用了
# 自动识别
# 给大家
# 三种
# 报错
# 不加
# 新版本
# 大家多多
# 文本文件
# 再提
# 字段名
# 序列化
# logger
相关文章:
宁波免费建站如何选择可靠模板与平台?
建站主机如何选?性能与价格怎样平衡?
如何批量查询域名的建站时间记录?
威客平台建站流程解析:高效搭建教程与设计优化方案
官网自助建站系统:SEO优化+多语言支持,快速搭建专业网站
c++怎么用jemalloc c++替换默认内存分配器【性能】
广东专业制作网站有哪些,广东省能源集团有限公司官网?
建站VPS选购需注意哪些关键参数?
在线流程图制作网站手机版,谁能推荐几个好的CG原画资源网站么?
建站之星如何保障用户数据免受黑客入侵?
建站之星如何修改网站生成路径?
潍坊网站制作公司有哪些,潍坊哪家招聘网站好?
北京的网站制作公司有哪些,哪个视频网站最好?
矢量图网站制作软件,用千图网的一张矢量图做公司app首页,该网站并未说明版权等问题,这样做算不算侵权?应该如何解决?
建站之星安装提示数据库无法连接如何解决?
安云自助建站系统如何快速提升SEO排名?
娃派WAP自助建站:免费模板+移动优化,快速打造专业网站
广州网站设计制作一条龙,广州巨网网络科技有限公司是干什么的?
魔方云NAT建站如何实现端口转发?
如何在阿里云虚拟机上搭建网站?步骤解析与避坑指南
香港服务器建站指南:免备案优势与SEO优化技巧全解析
建站主机功能解析:服务器选择与快速搭建指南
金*站制作公司有哪些,金华教育集团官网?
建站之星收费标准详解:套餐费用及年费价格表一览
上海网站制作开发公司,上海买房比较好的网站有哪些?
高防服务器:AI智能防御DDoS攻击与数据安全保障
如何通过FTP空间快速搭建安全高效网站?
网站制作公司,橙子建站是合法的吗?
建站之星上传入口如何快速找到?
如何在IIS中配置站点IP、端口及主机头?
如何通过万网虚拟主机快速搭建网站?
保定网站制作方案定制,保定招聘的渠道有哪些?找工作的人一般都去哪里看招聘信息?
小型网站建站如何选择虚拟主机?
网站建设制作、微信公众号,公明人民医院怎么在网上预约?
电商网站制作公司有哪些,1688网是什么意思?
建站之家VIP精选网站模板与SEO优化教程整合指南
韩国服务器如何优化跨境访问实现高效连接?
如何在企业微信快速生成手机电脑官网?
太平洋网站制作公司,网络用语太平洋是什么意思?
香港服务器网站生成指南:免费资源整合与高速稳定配置方案
行程制作网站有哪些,第三方机票电子行程单怎么开?
如何在阿里云香港服务器快速搭建网站?
Python如何创建带属性的XML节点
整人网站在线制作软件,整蛊网站退不出去必须要打我是白痴才能出去?
宝塔新建站点为何无法访问?如何排查?
PHP 500报错的快速解决方法
广州美橙建站如何快速搭建多端合一网站?
如何制作新型网站程序文件,新型止水鱼鳞网要拆除吗?
如何选择高效响应式自助建站源码系统?
如何在阿里云高效完成企业建站全流程?
*请认真填写需求信息,我们会在24小时内与您取得联系。