Самый быстрый способ взять случайную выборку из 100000 строк из каждого раздела таблицы hive

ProgramBox

Самый быстрый способ взять случайную выборку из 100000 строк из каждого раздела таблицы hive

Post author:admin
Запись опубликована:21 ноября, 2022
Post category:Вопросы по программированию

#hadoop #random #hive #hiveql

#hadoop #Случайный #улей #hiveql

Вопрос:

У меня есть таблица, разделенная по дням, причем каждый раздел содержит почти 80 миллионов строк.

Я хочу взять случайную выборку из 100000 строк из каждого раздела за определенный месяц.

В настоящее время я делаю это, используя ранг внутри каждого раздела, упорядочивая по rand(), а затем фильтруя по рангу, но это занимает почти 45-60 минут.

Есть ли более быстрый способ сделать то же самое без ущерба для качества выборки?

РЕДАКТИРОВАТЬ Моя таблица не привязана

Вопрос:

Вам также может понравиться

Относительно блокировки таблицы при последовательном запуске хранимой процедуры

Неожиданный Json при установке Firebase CLI

Как отключить заставку rich:extendeddatable