#apache-spark #pyspark #apache-spark-sql #rdd
Вопрос:
У меня есть следующий файл .csv (идентификатор, название, название книги, автор и т. Д.):
Я хочу вычислить все n-комбинации (из каждого заголовка я хочу все 4-словосочетания) из заголовков (столбец 2) статей (с n=4), после того как я удалю стоп-слова.
Я создал фрейм данных:
df_hdfs = sc.read.option('delimiter', ',').option('header', 'true').csv("/user/articles.csv")
Я создал rdd со столбцом заголовки:
rdd = df_hdfs.rdd.map(lambda x: (x[1]))
и кажется, что это:
Теперь я понимаю, что мне нужно маркировать каждую строку RDD словами, а затем удалять стоп-слова. Мне понадобится небольшая помощь в том, как это сделать и как вычислить комбинации.
Спасибо.