#azure #pyspark #azure-databricks #microsoft-academic-graph
Вопрос:
Я тестирую учебное пособие PySpark с использованием данных Microsoft Academic Graph (MAG). (https://github.com/Azure-Samples/microsoft-academic-graph-pyspark-samples/blob/master/src/AIIndex.ipynb)
Я продолжаю получать ошибки в разделе «Загрузка MAG-данных». Несмотря на то, что я запускаю 4-ю строку, это займет меньше всего времени (Affiliations.txt — из-за небольшого размера файла (5 МБ) для запуска требуется около 11 минут, и выводится следующее сообщение об ошибке.
заштрихованный.databricks.org.apache.hadoop.fs.azure.Исключение AzureException: заштрихованный.databricks.org.apache.hadoop.fs.azure.Исключение AzureException: невозможно получить доступ к контейнеру $root в учетной записи mag-datashare с использованием анонимных учетных данных, и для них не найдены учетные данные в конфигурации.
Я искал сообщения об ошибках, но безрезультатно. Я думаю, что я сделал что-то не так в разделе «Инициализация учетной записи хранилища и сведений о контейнере», особенно переменных MagContainer и OutputContainer.
В моей учетной записи хранилища,
- У меня есть контейнер с именем ‘mag-datashare’, который является общим для Microsoft, и я пытаюсь указать путь в переменной MagContainer. В описании указано, что оно имеет форму ‘mag-yyyy-mm-dd’, но попытка не удалась. Я пробовал ‘mag-datashare / mag / 2021-10-11’, ‘mag-datashare / mag’, ‘mag-2021-10-11 ‘, ‘маг-2021-10-11 «, «mag-datashare», которые все вышли из строя. Некоторые из них завершаются сбоем сразу, но некоторые занимают 11 минут. Я искал другие примеры, но они, похоже, имеют другой формат, используется дополнительная переменная MagVersion.
- Я создал контейнер с именем ‘mag-output’ и ввел его путь в переменную OutputContainer.
Может кто-нибудь, пожалуйста, помочь мне запустить код?