Pyspark: -Получить значения строк огромного файла (1 ГБ) любого типа, для которого значения столбцов равны ‘False’, без ошибки ООМ

#pyspark #apache-spark-sql

#pyspark #apache-spark-sql

Вопрос:

когда я пытаюсь собрать значения строк из «Row_id» (пользовательский столбец), который содержит целочисленные значения от 1 до (длина фрейма данных), в соответствии с условием (столбцы с логическими значениями false), ошибка ООМ возникает только в том случае, если размер файла огромен. Приведенный ниже код работает для файла, имеющего 10 строк и 5 столбцов, но тот же код не обрабатывает огромные файлы.

 listt_append=[]
        for z in range(len(dff_schema)):
            listt=[]
            for x in range(len(dff_schema[z].collect())):
                for y in range(len(dff_schema[z].collect()[x])):
                    if dff_schema[z].collect()[x][y]==False:
                        listt=listt [dff_schema[z].collect()[x][-1]]
            listt_append.append(list(set(listt)))
  

Я использую систему с 16 ГБ оперативной памяти и процессором i5.

Комментарии:

1. есть ли какая-либо двусмысленность в вопросе? Пожалуйста, повысьте.

2. не machine-learning вопрос, пожалуйста, не спамите нерелевантные теги (удалены).