GCP Bigquery не предоставляет все неверные записи в потоке ошибок

# #python #google-cloud-platform #google-bigquery #google-cloud-storage

Вопрос:

При пакетной загрузке данных в BigQuery и указании максимального количества плохих записей до 5000. Поток ошибок BigQuery содержит 5 записей об ошибках.

Когда я изменяю максимальное количество плохих записей на 100 и загружаю один и тот же файл. Нагрузка выходит из строя.

Если я правильно понимаю, это означает, что плохих записей больше, чем я получал ранее (5 записей), но BigQuery не регистрирует их в потоке ошибок.

Кто-нибудь может объяснить, почему это так?

Ошибка потока BigQuery:

введите описание изображения здесь

Ответ №1:

Поток ошибок заданий BigQuery содержит только начальные ошибки, с которыми он сталкивается, и не гарантирует, что он предоставит исчерпывающий список всех ошибок.

Дополнительную информацию смотрите в справочной документации REST. Поток ошибок находится внутри подкачки JobStatus: https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobstatus

Если вы хотите провести более обширную проверку входных файлов, я бы рекомендовал какую-то предварительную обработку (возможно, что-то в потоке данных/луче) или переключиться на лучший формат с самоописанием, такой как avro или parquet. CSV-это в некотором роде печально известный формат из-за множества особенностей и различий между различными читателями и авторами.

Комментарии:

1. @shollyman — Спасибо, что ответили на мой вопрос и развеяли мои сомнения. : )