#regex #oracle-sqldeveloper #oracle12c
#регулярное выражение #oracle-sqldeveloper #oracle12c
Вопрос:
У меня есть огромный файл, содержащий 4,1 миллиона записей, и мне нужно найти файлы такого Clock Accuracy – SM111.ppt
типа, которые содержат нечитаемые символы. Другим таким примером является — 241395 - Ansprüche.doc
Как сопоставить это с помощью регулярного выражения. Я использую базу данных Oracle 12c
Ответ №1:
Это очень похоже на проблему с кодировкой символов вашего файла. Похоже, что файл имеет кодировку UTF-8: ü
означает ü
, что Ansprüche.doc
имеет смысл. –
кодирует N-тире ( –
) и так далее.
Итак, вам нужно открыть файл, используя UTF-8 в качестве кодировки, тогда должны появиться правильные символы (если файл не поврежден при использовании нескольких кодировок одновременно).
Комментарии:
1. Я согласен. Но требуется проверять все файлы с использованием регулярных выражений в базе данных Oracle. Я сбросил весь этот файл в БД и хотел бы выполнить с ним некоторую операцию.