#apache-spark #hadoop #pyspark #localhost
Вопрос:
Когда я запустил spark из командной строки, ссылка localhost:4040 работала. Но когда я запускаю его в Google colab, ссылка не работает. Вместо этого эта ссылка работает:-
http://1f24-35-185-34-244.ngrok.io/environment/
Ниже приведен весь мой код до сих пор: —
!pip install pyspark
from google.colab import drive
drive.mount('/content/drive')
!apt-get install openjdk-8-jdk-headless
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
!tar xf spark-3.0.0-bin-hadoop3.2.tgz
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
!pip install -q findspark
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext.getOrCreate();
a = sc.parallelize([1,2,3,4])
a.collect()
from pyspark.sql import SparkSession
spark = SparkSession.builder
.master("local")
.appName("Colab")
.config('spark.ui.port', '4050')
.getOrCreate()
!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip ngrok-stable-linux-amd64.zip
get_ipython().system_raw('./ngrok http 4050 amp;')
!curl -s http://localhost:4040/api/tunnels