Apache Spark, чтение файла outlook .pst

#apache-spark #pst

#apache-spark #pst

Вопрос:

Я пытаюсь считывать данные из электронных писем Enron, а затем анализировать их. В настоящее время все файлы архивируются, а затем в формате .pst.

Есть ли возможность считывать данные .pst непосредственно в spark?

В настоящее время я иду по пути расширения PST в Java с использованием libPST, сопоставления с JSON и последующей загрузки json в фрейм данных.

Ответ №1:

Вы можете использовать spark версии 3. После spark версии 3 мы можем читать их как двоичные файлы.