Встроенные Nul (ы) при загрузке данных в R

#python #r #sql-server #filezilla #data-loss

#python #r #sql-сервер #filezilla #потеря данных

Вопрос:

Данные, о которых я говорю, были экспортированы с SQL server в формате CSV и содержат ~ 2 миллиона строк. Позже это было передано мне через Filezilla (поскольку это были данные клиента). Я пытался загрузить этот CSV-файл в среду R и столкнулся с нижеприведенным предупреждающим сообщением:

Предупреждающее сообщение:
при сканировании (file = file, what = what, sep = sep, quote = quote, dec = dec, :
встроенные нулевые значения найдены во входных данных

Это не просто предупреждающее сообщение, но я потерял ~ 1,5 миллиона строк после загрузки данных. Это означает, что только 500 Тыс. строк не являются нулевыми. Все эти 500 тыс. строк находятся в хорошем состоянии и сопоставляются с родительскими данными с клиентами.

Вот тут-то и началась интересная часть головоломки. Мы заставили наших клиентов загружать CSV обратно на SQL server, чтобы создать новую таблицу, и проверили общее количество строк (наряду с несколькими другими показателями). Все данные были там, они даже не пропустили ни одной строки.

Другие потоки встроенных nul (ов) помогают считывать данные без предупреждения. Но я этого не хочу. Поэтому я прошу вашей помощи ответить на следующие вопросы:

  1. Есть ли способ прочитать файл со встроенными nul (даже если это nul, у меня нет проблем, но я хочу сначала прочитать все 2 миллиона строк)
  2. Существуют ли какие-либо возможные меры безопасности для преобразования большей части данных в NULL при совместном использовании конфиденциальных данных с пользователями? (возможно, это мои клиенты, и я не знаю об этом и пытаюсь решить неправильную проблему)

Примечание:

  • Я также попытался загрузить данные в Python и Alteryx, но результат тот же
  • Потери данных нет, так как размер файла точно соответствует тому, что нам предоставили клиенты
  • Не пытался загружать данные на SQL server, поскольку у меня их нет в моей системе, но дело в том, что я хочу, чтобы данные на R / Python выполняли некоторый анализ

Комментарии:

1. Вы хотите сказать, что CSV-файл содержит ASCII NUL (0x00) символов? Это довольно необычно и будет мешать многим утилитам, которые были написаны на C, потому что C использует строки, заканчивающиеся NUL.

2. Возможно ли, что это CSV-файл в кодировке UTF-16? В файле с кодировкой UTF-16 каждый второй байт будет равен 0x00 для английских символов.