#pyspark #apache-spark-sql
#pyspark #apache-spark-sql
Вопрос:
когда я пытаюсь собрать значения строк из «Row_id» (пользовательский столбец), который содержит целочисленные значения от 1 до (длина фрейма данных), в соответствии с условием (столбцы с логическими значениями false), ошибка ООМ возникает только в том случае, если размер файла огромен. Приведенный ниже код работает для файла, имеющего 10 строк и 5 столбцов, но тот же код не обрабатывает огромные файлы.
listt_append=[]
for z in range(len(dff_schema)):
listt=[]
for x in range(len(dff_schema[z].collect())):
for y in range(len(dff_schema[z].collect()[x])):
if dff_schema[z].collect()[x][y]==False:
listt=listt [dff_schema[z].collect()[x][-1]]
listt_append.append(list(set(listt)))
Я использую систему с 16 ГБ оперативной памяти и процессором i5.
Комментарии:
1. есть ли какая-либо двусмысленность в вопросе? Пожалуйста, повысьте.
2. не
machine-learning
вопрос, пожалуйста, не спамите нерелевантные теги (удалены).