重要,重要,重要,Latex 显示失败务必重新刷新页面可以修复,博主也在定位原因修复中

fastparquet:parquet格式解析好帮手

140次阅读
没有评论

Blog 又开始种草了,虽然平时这个自留地记得都是流水账,懒起来的时候流水账都懒得记。今天又来水一篇,有关解析ParquetFile 文件。这两天做一个数据分析,生成的结果数据文件我没有指定输出格式,保存的时候变成snappy.parquet的格式,已经生成很多了,所以又不想改格式重新生成一遍,索性看下有没有合适的package来解析。便由此出了此文。

安装

conda安装

conda install -c conda-forge fastparquet

PyPI 安装:

pip install fastparquet

使用

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

就是这么简单,后面pandas Dataframe格式就好办了。

admin
版权声明:本站原创文章,由 admin2021-12-22发表,共计412字。
转载说明:Copyright © 2022 算法之道. All rights reserved.
评论(没有评论)