#python #apache-spark #pyspark
#python #apache-spark #pyspark
Вопрос:
Я запускаю скрипт Python на Spark, но я получил следующую ошибку: ошибка значения: длина объекта (1) не совпадает с длиной полей (2). Я перечислю код, который я запускаю, и скриншот ошибки:
conf = SparkConf().setMaster("local").setAppName("ApplySentimentModel")
sc = SparkContext(conf = conf)
spark = SparkSession(sc)
# read the sentiment tsv file into an rdd and split it based upon tab
# the test file should be in the following format
# label->tab->tweet
lines = sc.textFile("test_file.tsv").map(lambda x: x.split("t"))
# define the schema
schema = StructType([StructField("target", StringType(), True), StructField("tweet", StringType(), True)])
# create dataframe from rdd
docs = spark.createDataFrame(lines, schema)
# define the processing pipeline (tokenize->tf->idf->label_indexer)
tokenizer = Tokenizer(inputCol="tweet", outputCol="words")
hashtf = HashingTF(inputCol="words", outputCol='tf')
idf = IDF(inputCol='tf', outputCol="features", minDocFreq=5)
indexedLabel = StringIndexer(inputCol = "target", outputCol = "label")
pipeline = Pipeline(stages=[tokenizer, hashtf, idf, indexedLabel])
# apply the pipeline to the testing datasets
pipelineFit = pipeline.fit(docs)
test_df = pipelineFit.transform(docs)
# load the trained model
lrModel = LogisticRegressionModel.load('lrModel.model')
# apply the model to predict the sentiment
predictions = lrModel.transform(test_df)
# compute the accuracy of predictions
accuracy = predictions.filter(predictions.label == predictions.prediction).count() / float(docs.count())
print("****************************************n")
print("Prediction accuracy " str(accuracy) "n")
print("****************************************n")
# save the testing data, and the the target and predicted labels (0 -> positive, 1 -> negative)
predictions.select("tweet", "label", "prediction").write.format('csv').option('header',True).mode('overwrite').option('sep',',').save('predictions')
sc.stop()
Ответ №1:
Это означает, что ваш lines
RDD содержит только 1 столбец, но вы просили создать фрейм данных с 2 столбцами из rdd. Убедитесь, что ваш файл содержит два столбца, разделенных табуляцией в каждой строке. Если в некоторых строках отсутствуют записи, вы увидите описанную вами ошибку.
На самом деле, если вы хотите создать фрейм данных из файла tsv, вам лучше использовать
schema = StructType([
StructField("target", StringType(), True),
StructField("tweet", StringType(), True)
])
docs = spark.read.csv('test_file.tsv', sep='t', schema=schema)
который позаботится о пропущенных записях с NULL.