pd.read_json() для чтения всех файлов json в папке

#python #json #pandas

#python #json #pandas

Вопрос:

У меня есть 100 больших файлов json в gcs, и я хочу загрузить их в фрейм данных panda. Я использовал что-то вроде приведенного ниже в dask:

  dd.read_json('gs://dask_poc/2018-04-18/data-*.json')
  

Но когда я использовал:

  pd.read_json('gs://dask_poc/2018-04-18/data-*.json')
  

Я получил приведенную ниже ошибку:
Ошибка значения: ожидаемый объект или значение

Интересно, не может ли panda объединить все файлы вместе, подобно dask?

Комментарии:

1. Это может показаться глупым вопросом, и я, вероятно, уже знаю ответ, но где вы запускаете этот код?

2. @coldspeed локально в моей jupyterlab

3. вероятно, вы могли бы использовать цикл for для открытия каждого файла в этой папке и выполнения любого кода, который у вас есть для каждого файла json

4. К сожалению, pandas не имеет встроенной поддержки GCP, и нельзя ожидать, что она волшебным образом поймет ссылки GCP.

5. Что ж, я поражен. Как это возможно без какой-либо аутентификации с вашей стороны?