#python #pyspark #spark-dataframe #hdf5
#python #pyspark #apache-spark-sql #hdf5
Вопрос:
Я только начал изучать spark (точнее, pyspark).
Как я могу преобразовать файл HDF5 в spark dataframes?
Может ли dask помочь в этом, или фреймы данных dask чем-то отличаются от фреймов данных spark?
Комментарии:
1. Некоторое время назад я нашел эту статью: hdfgroup.org/wp/2015/03/from-hdf5-datasets-to-apache-spark-rdds . Я никогда не пробовал это, но это может быть полезно. Насколько мне известно, dask похож по концепции на Spark, но это две разные вещи (поэтому dask вам не поможет). Я бы рекомендовал использовать Spark, поскольку он более распространен. Вы также можете попробовать использовать библиотеку odo для преобразования данных (опять же, никогда не пробовал). Дайте нам знать, если вы найдете какое-то безболезненное решение!
Ответ №1:
Чтение фрейма данных в pandas. Затем вы можете преобразовать фрейм данных pandas в spark Dataframe. Вот как я это сделал. Этот код поможет вам:
import pandas as pd
store = pd.HDFStore('/mypath')
wav = store.select('mykey')
spark_df = sqlContext.createDataFrame(wav, mySchema) //mySchema is optional
spark_df.take(1)
Надеюсь, это поможет!