регулярное выражение для поиска нечитаемых символов в имени файла

#regex #oracle-sqldeveloper #oracle12c

#регулярное выражение #oracle-sqldeveloper #oracle12c

Вопрос:

У меня есть огромный файл, содержащий 4,1 миллиона записей, и мне нужно найти файлы такого Clock Accuracy – SM111.ppt типа, которые содержат нечитаемые символы. Другим таким примером является — 241395 - Ansprüche.doc

Как сопоставить это с помощью регулярного выражения. Я использую базу данных Oracle 12c

Ответ №1:

Это очень похоже на проблему с кодировкой символов вашего файла. Похоже, что файл имеет кодировку UTF-8: ü означает ü , что Ansprüche.doc имеет смысл. – кодирует N-тире ( ) и так далее.

Итак, вам нужно открыть файл, используя UTF-8 в качестве кодировки, тогда должны появиться правильные символы (если файл не поврежден при использовании нескольких кодировок одновременно).

Комментарии:

1. Я согласен. Но требуется проверять все файлы с использованием регулярных выражений в базе данных Oracle. Я сбросил весь этот файл в БД и хотел бы выполнить с ним некоторую операцию.