Установка pyspark на hadoop и yarn

#python #hadoop #apache-spark #hadoop-yarn

Вопрос:

Я установил spark поверх hadoop и yarn . когда я запускаю pyspark shell и пытаюсь что-то вычислить, я получаю эту ошибку.

 Error from python worker:
  /usr/bin/python: No module named pyspark

pyspark Модуль должен быть там, должен ли я указывать на него внешнюю ссылку?

Ответ №1:

Я столкнулся с той же проблемой. Это было связано с созданием Spark с Java7. Использование Java6 должно это исправить. На самом деле это ошибка python — его модуль zipimport не поддерживает формат Zip64, используемый Java7 для упаковки большого Jar с файлами 65536 . Это был хит Google, который мне помог. <a rel=»noreferrer noopener nofollow» href=»https:///mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/» rel=»nofollow»>http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/

Это также объясняет это. https://issues.apache.org/jira/browse/SPARK-1911

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

как развернуть файл .mdf

Как написать запрос NodeJS для извлечения записей базы данных PostgreSQL за последние 24 часа с использованием интервала datetime

Добавление составных индексов в таблицу MYSQL