#python #list #apache-spark #pyspark
#python #Список #apache-spark #pyspark
Вопрос:
У меня есть список в pyspark, который имеет следующий формат:
[(u'category1',
[u'a',
u'b',
u'c',
u'd']),
(u'category2',
[u'v',
u's',
u'g',
u'd'])]
Я хотел бы удалить элементы категории из этого списка. Есть ли какой-нибудь чистый способ сделать это в pyspark?
Комментарии:
1. Не знаком с pyspark. Можете ли вы использовать понимание списка?
[x[1] for x in my_list]
2. Как насчет этого [(x[1],) для x в l] ?
3. Вы имеете в виду a
rdd
? Вероятно, вы можете просто сделатьrdd.map(lambda x: x[1])
4. да, именно это я и искал! Спасибо
Ответ №1:
Как говорится в комментариях ниже к моему вопросу, это ответ:
[x[1] for x in my_list]