Самый быстрый способ взять случайную выборку из 100000 строк из каждого раздела таблицы hive

#hadoop #random #hive #hiveql

#hadoop #Случайный #улей #hiveql

Вопрос:

У меня есть таблица, разделенная по дням, причем каждый раздел содержит почти 80 миллионов строк.

Я хочу взять случайную выборку из 100000 строк из каждого раздела за определенный месяц.

В настоящее время я делаю это, используя ранг внутри каждого раздела, упорядочивая по rand(), а затем фильтруя по рангу, но это занимает почти 45-60 минут.

Есть ли более быстрый способ сделать то же самое без ущерба для качества выборки?

РЕДАКТИРОВАТЬ Моя таблица не привязана