#encoding #hive #hiveql #orc
#кодирование #улей #hiveql #orc
Вопрос:
Столкнулся с проблемой при извлечении данных из таблицы hive.
Входная строка: » u0001d1 u0002d2 u0003″
Здесь u0001 = ^Символ. аналогично символ u0002 = ^B…
Успешно вставлена приведенная выше строка в таблицу hive. Запрос DDL Hive:
CREATE TABLE test_lt_snap (f1 string) PARTITIONED BY ( date string) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' WITH SERDEPROPERTIES ('serialization.encoding'='utf-8') STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat' LOCATION '<file path>' TBLPROPERTIES ( 'store.charset'='utf-8', 'retrieve.charset'='utf-8');
После выбора поля f1 через интерфейс командной строки hive я не могу увидеть символ ‘ u0001’. например:
hive (test_db) > select f1 from test_lt_snap;
output: d1d2
hive (test_db) > select f1 from test_lt_snap where f1 like 'u0001d1%';
output: d1d2
Проблема с приведенным выше предложением выбора заключается в том, что символ u0001 не отображается.
Есть ли какой-либо способ, которым мы можем отобразить символы?
Спасибо, Амия
Комментарии:
1. можете ли вы попробовать checkign с помощью какого-либо инструмента пользовательского интерфейса, такого как Dbeaver или Hue?
2. да, я также проверил оттенок, который все еще выдает тот же результат. @KoushikRoy