Базы данных Загружают кратные файлы из Datalake Gen2 и объединяют все

#azure #pyspark #databricks

Вопрос:

Мне нужна помощь с базами данных. У меня есть 100 файлов (в одной папке) в Azure Data Lake Gen2, и мне нужно загрузить и объединить все эти файлы в Azure DataBrics. Я могу загрузить только один файл. Я пытался сделать это:

 df = spark.read.csv(
"abfss://curated@http://azdlsdvdatalake.dfs.core.windows.net/.../folder/*.csv")
 

и это не сработало.
И после этого мне нужно объединить все файлы тезисов

Можете ли вы, ребята, помочь мне с этим вопросом? Спасибо тебе

Комментарии:

1. когда вы говорите, что это не сработало — какую ошибку вы получаете?

2. Вертолет @Алекс Отт . Исключение незаконных аргументов: java.net. Исключение URISyntaxException: Относительный путь в абсолютном URI: playSession2021-07-15T16:14:57.2085576 Z. csv

3. Вертолет @Алекс Отт . Исключение незаконных аргументов: java.net. Исключение URISyntaxException: Относительный путь в абсолютном URI: playSession2021-07-15T16:14:57.2085576 Z. csv . Я удалил время (T16:14:57.2085576 Z ) из файлов, и это сработало хорошо. Честно говоря, я не знаю, почему это происходит. Теперь у меня есть все эти файлы в переменной: df, и я не знаю, как с этим справиться. Мне нужен только один файл, чтобы иметь возможность применить некоторый анализ. Возможно, мне нужно будет объединить все, устранить дубликаты данных, но я не нашел, как это сделать.

4. есть ли у вас все это .... на пути?

5. Это мой путь: df = spark.read.csv(«abfss://curated@azdlsdvdatalake.dfs.core.windows.net/area=CI/pj=folder/folder/folder/*.csv», заголовок=’true’,вывод=’true’)