#python #pandas #dask #parquet
#python #панды #dask #паркет
Вопрос:
У меня есть вызываемый файл parquet data.parquet
. Я использую библиотеку dask
из Python. Когда я запускаю строку
import dask.dataframe as dd
df = dd.read_parquet('data.parquet',engine='pyarrow')
Я получаю сообщение об ошибке
TypeError Traceback (most recent call last)
<ipython-input-22-807fa43763c1> in <module>
----> 1 df = dd.read_parquet('data.parquet',engine='pyarrow')
~/anaconda3/lib/python3.7/site-packages/dask/dataframe/io/parquet.py in read_parquet(path, columns, filters, categories, index, storage_options, engine, infer_divisions)
1395 categories=categories,
1396 index=index,
-> 1397 infer_divisions=infer_divisions,
1398 )
1399
~/anaconda3/lib/python3.7/site-packages/dask/dataframe/io/parquet.py in _read_pyarrow(fs, fs_token, paths, columns, filters, categories, index, infer_divisions)
858 _open = lambda fn: pq.ParquetFile(fs.open(fn, mode="rb"))
859 for piece in dataset.pieces:
--> 860 pf = piece.get_metadata(_open)
861 # non_empty_pieces.append(piece)
862 if pf.num_row_groups > 0:
TypeError: get_metadata() takes 1 positional argument but 2 were given
Я просто не понимаю, почему это происходит, поскольку именно так это реализовано здесь.
Любая помощь будет оценена!
Комментарии:
1. Какую версию pyarrow и dask вы используете? Пожалуйста, обновите до последней версии.
Ответ №1:
Я столкнулся с той же проблемой. Я решил обновить версию dask 2.30.0