#python #hadoop #apache-spark #hadoop-yarn
#python #hadoop #apache-spark #hadoop-yarn
Вопрос:
Я установил spark поверх hadoop
и yarn
. когда я запускаю pyspark shell
и пытаюсь что-то вычислить, я получаю эту ошибку.
Error from python worker:
/usr/bin/python: No module named pyspark
pyspark
Модуль должен быть там, должен ли я указывать на него внешнюю ссылку?
Комментарии:
1. пожалуйста, обновите конфигурацию вашей системы. ОС, версии Hadoop и Yarn и т. Д.
2. В вашем вопросе недостаточно информации.
Ответ №1:
Я столкнулся с той же проблемой. Это было связано с созданием Spark с Java7. Использование Java6 должно это исправить. На самом деле это ошибка python — его модуль zipimport не поддерживает формат Zip64, используемый Java7 для упаковки большого Jar с файлами 65536 . Это был хит Google, который мне помог. <a rel=»noreferrer noopener nofollow» href=»https:///mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/» rel=»nofollow»>http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/
Это также объясняет это. https://issues.apache.org/jira/browse/SPARK-1911