#python #r #sql-server #filezilla #data-loss
#python #r #sql-сервер #filezilla #потеря данных
Вопрос:
Данные, о которых я говорю, были экспортированы с SQL server в формате CSV и содержат ~ 2 миллиона строк. Позже это было передано мне через Filezilla (поскольку это были данные клиента). Я пытался загрузить этот CSV-файл в среду R и столкнулся с нижеприведенным предупреждающим сообщением:
Предупреждающее сообщение:
при сканировании (file = file, what = what, sep = sep, quote = quote, dec = dec, :
встроенные нулевые значения найдены во входных данных
Это не просто предупреждающее сообщение, но я потерял ~ 1,5 миллиона строк после загрузки данных. Это означает, что только 500 Тыс. строк не являются нулевыми. Все эти 500 тыс. строк находятся в хорошем состоянии и сопоставляются с родительскими данными с клиентами.
Вот тут-то и началась интересная часть головоломки. Мы заставили наших клиентов загружать CSV обратно на SQL server, чтобы создать новую таблицу, и проверили общее количество строк (наряду с несколькими другими показателями). Все данные были там, они даже не пропустили ни одной строки.
Другие потоки встроенных nul (ов) помогают считывать данные без предупреждения. Но я этого не хочу. Поэтому я прошу вашей помощи ответить на следующие вопросы:
- Есть ли способ прочитать файл со встроенными nul (даже если это nul, у меня нет проблем, но я хочу сначала прочитать все 2 миллиона строк)
- Существуют ли какие-либо возможные меры безопасности для преобразования большей части данных в NULL при совместном использовании конфиденциальных данных с пользователями? (возможно, это мои клиенты, и я не знаю об этом и пытаюсь решить неправильную проблему)
Примечание:
- Я также попытался загрузить данные в Python и Alteryx, но результат тот же
- Потери данных нет, так как размер файла точно соответствует тому, что нам предоставили клиенты
- Не пытался загружать данные на SQL server, поскольку у меня их нет в моей системе, но дело в том, что я хочу, чтобы данные на R / Python выполняли некоторый анализ
Комментарии:
1. Вы хотите сказать, что CSV-файл содержит ASCII NUL (0x00) символов? Это довольно необычно и будет мешать многим утилитам, которые были написаны на C, потому что C использует строки, заканчивающиеся NUL.
2. Возможно ли, что это CSV-файл в кодировке UTF-16? В файле с кодировкой UTF-16 каждый второй байт будет равен 0x00 для английских символов.