# #python #google-cloud-platform #google-bigquery #google-cloud-storage
Вопрос:
При пакетной загрузке данных в BigQuery и указании максимального количества плохих записей до 5000. Поток ошибок BigQuery содержит 5 записей об ошибках.
Когда я изменяю максимальное количество плохих записей на 100 и загружаю один и тот же файл. Нагрузка выходит из строя.
Если я правильно понимаю, это означает, что плохих записей больше, чем я получал ранее (5 записей), но BigQuery не регистрирует их в потоке ошибок.
Кто-нибудь может объяснить, почему это так?
Ошибка потока BigQuery:
Ответ №1:
Поток ошибок заданий BigQuery содержит только начальные ошибки, с которыми он сталкивается, и не гарантирует, что он предоставит исчерпывающий список всех ошибок.
Дополнительную информацию смотрите в справочной документации REST. Поток ошибок находится внутри подкачки JobStatus: https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobstatus
Если вы хотите провести более обширную проверку входных файлов, я бы рекомендовал какую-то предварительную обработку (возможно, что-то в потоке данных/луче) или переключиться на лучший формат с самоописанием, такой как avro или parquet. CSV-это в некотором роде печально известный формат из-за множества особенностей и различий между различными читателями и авторами.
Комментарии:
1. @shollyman — Спасибо, что ответили на мой вопрос и развеяли мои сомнения. : )