Apache pyspark удаляет стоп-слова и вычисляет

#apache-spark #pyspark #apache-spark-sql #rdd

Вопрос:

У меня есть следующий файл .csv (идентификатор, название, название книги, автор и т. Д.):

Я хочу вычислить все n-комбинации (из каждого заголовка я хочу все 4-словосочетания) из заголовков (столбец 2) статей (с n=4), после того как я удалю стоп-слова.

Я создал фрейм данных:

 df_hdfs = sc.read.option('delimiter', ',').option('header', 'true').csv("/user/articles.csv")

Я создал rdd со столбцом заголовки:

 rdd = df_hdfs.rdd.map(lambda x: (x[1]))

и кажется, что это:

Теперь я понимаю, что мне нужно маркировать каждую строку RDD словами, а затем удалять стоп-слова. Мне понадобится небольшая помощь в том, как это сделать и как вычислить комбинации.

Спасибо.

Вопрос:

Вам также может понравиться

Свойство доступа универсального типа, не определенное в интерфейсе с использованием dynamic

onmouseout не работает, однако onmouseover

Объединение двух вызовов XHR с использованием chrome.runtime.SendMessage