#apache-spark #pst
#apache-spark #pst
Вопрос:
Я пытаюсь считывать данные из электронных писем Enron, а затем анализировать их. В настоящее время все файлы архивируются, а затем в формате .pst.
Есть ли возможность считывать данные .pst непосредственно в spark?
В настоящее время я иду по пути расширения PST в Java с использованием libPST, сопоставления с JSON и последующей загрузки json в фрейм данных.
Ответ №1:
Вы можете использовать spark версии 3. После spark версии 3 мы можем читать их как двоичные файлы.