#python #json #pandas
#python #json #pandas
Вопрос:
У меня есть 100 больших файлов json в gcs, и я хочу загрузить их в фрейм данных panda. Я использовал что-то вроде приведенного ниже в dask:
dd.read_json('gs://dask_poc/2018-04-18/data-*.json')
Но когда я использовал:
pd.read_json('gs://dask_poc/2018-04-18/data-*.json')
Я получил приведенную ниже ошибку:
Ошибка значения: ожидаемый объект или значение
Интересно, не может ли panda объединить все файлы вместе, подобно dask?
Комментарии:
1. Это может показаться глупым вопросом, и я, вероятно, уже знаю ответ, но где вы запускаете этот код?
2. @coldspeed локально в моей jupyterlab
3. вероятно, вы могли бы использовать цикл for для открытия каждого файла в этой папке и выполнения любого кода, который у вас есть для каждого файла json
4. К сожалению, pandas не имеет встроенной поддержки GCP, и нельзя ожидать, что она волшебным образом поймет ссылки GCP.
5. Что ж, я поражен. Как это возможно без какой-либо аутентификации с вашей стороны?