Pyspark: -Получить значения строк огромного файла (1 ГБ) любого типа, для которого значения столбцов равны 'False', без ошибки ООМ

#pyspark #apache-spark-sql

Вопрос:

когда я пытаюсь собрать значения строк из «Row_id» (пользовательский столбец), который содержит целочисленные значения от 1 до (длина фрейма данных), в соответствии с условием (столбцы с логическими значениями false), ошибка ООМ возникает только в том случае, если размер файла огромен. Приведенный ниже код работает для файла, имеющего 10 строк и 5 столбцов, но тот же код не обрабатывает огромные файлы.

 listt_append=[]
        for z in range(len(dff_schema)):
            listt=[]
            for x in range(len(dff_schema[z].collect())):
                for y in range(len(dff_schema[z].collect()[x])):
                    if dff_schema[z].collect()[x][y]==False:
                        listt=listt [dff_schema[z].collect()[x][-1]]
            listt_append.append(list(set(listt)))

Я использую систему с 16 ГБ оперативной памяти и процессором i5.

Pyspark: -Получить значения строк огромного файла (1 ГБ) любого типа, для которого значения столбцов равны ‘False’, без ошибки ООМ

Вопрос:

Комментарии:

Вопрос:

Комментарии:

Вам также может понравиться

конфликт tabindex между модальным режимом Alertify и bootstrap 4

Как работать с очень долго работающими клетками

ibm cloud target для организации и пространства