#azure #pyspark #databricks
Вопрос:
Мне нужна помощь с базами данных. У меня есть 100 файлов (в одной папке) в Azure Data Lake Gen2, и мне нужно загрузить и объединить все эти файлы в Azure DataBrics. Я могу загрузить только один файл. Я пытался сделать это:
df = spark.read.csv(
"abfss://curated@http://azdlsdvdatalake.dfs.core.windows.net/.../folder/*.csv")
и это не сработало.
И после этого мне нужно объединить все файлы тезисов
Можете ли вы, ребята, помочь мне с этим вопросом? Спасибо тебе
Комментарии:
1. когда вы говорите, что это не сработало — какую ошибку вы получаете?
2. Вертолет @Алекс Отт . Исключение незаконных аргументов: java.net. Исключение URISyntaxException: Относительный путь в абсолютном URI: playSession2021-07-15T16:14:57.2085576 Z. csv
3. Вертолет @Алекс Отт . Исключение незаконных аргументов: java.net. Исключение URISyntaxException: Относительный путь в абсолютном URI: playSession2021-07-15T16:14:57.2085576 Z. csv . Я удалил время (T16:14:57.2085576 Z ) из файлов, и это сработало хорошо. Честно говоря, я не знаю, почему это происходит. Теперь у меня есть все эти файлы в переменной: df, и я не знаю, как с этим справиться. Мне нужен только один файл, чтобы иметь возможность применить некоторый анализ. Возможно, мне нужно будет объединить все, устранить дубликаты данных, но я не нашел, как это сделать.
4. есть ли у вас все это
....
на пути?5. Это мой путь: df = spark.read.csv(«abfss://curated@azdlsdvdatalake.dfs.core.windows.net/area=CI/pj=folder/folder/folder/*.csv», заголовок=’true’,вывод=’true’)