Установка pyspark на hadoop и yarn

#python #hadoop #apache-spark #hadoop-yarn

#python #hadoop #apache-spark #hadoop-yarn

Вопрос:

Я установил spark поверх hadoop и yarn . когда я запускаю pyspark shell и пытаюсь что-то вычислить, я получаю эту ошибку.

 Error from python worker:
  /usr/bin/python: No module named pyspark
 

pyspark Модуль должен быть там, должен ли я указывать на него внешнюю ссылку?

Комментарии:

1. пожалуйста, обновите конфигурацию вашей системы. ОС, версии Hadoop и Yarn и т. Д.

2. В вашем вопросе недостаточно информации.

Ответ №1:

Я столкнулся с той же проблемой. Это было связано с созданием Spark с Java7. Использование Java6 должно это исправить. На самом деле это ошибка python — его модуль zipimport не поддерживает формат Zip64, используемый Java7 для упаковки большого Jar с файлами 65536 . Это был хит Google, который мне помог. <a rel=»noreferrer noopener nofollow» href=»https:///mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/» rel=»nofollow»>http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/

Это также объясняет это. https://issues.apache.org/jira/browse/SPARK-1911