Apache pyspark удаляет стоп-слова и вычисляет

#apache-spark #pyspark #apache-spark-sql #rdd

Вопрос:

У меня есть следующий файл .csv (идентификатор, название, название книги, автор и т. Д.):

csv

Я хочу вычислить все n-комбинации (из каждого заголовка я хочу все 4-словосочетания) из заголовков (столбец 2) статей (с n=4), после того как я удалю стоп-слова.

Я создал фрейм данных:

 df_hdfs = sc.read.option('delimiter', ',').option('header', 'true').csv("/user/articles.csv")
 

Я создал rdd со столбцом заголовки:

 rdd = df_hdfs.rdd.map(lambda x: (x[1]))
 

и кажется, что это:

rdd

Теперь я понимаю, что мне нужно маркировать каждую строку RDD словами, а затем удалять стоп-слова. Мне понадобится небольшая помощь в том, как это сделать и как вычислить комбинации.

Спасибо.