#hadoop #random #hive #hiveql
#hadoop #Случайный #улей #hiveql
Вопрос:
У меня есть таблица, разделенная по дням, причем каждый раздел содержит почти 80 миллионов строк.
Я хочу взять случайную выборку из 100000 строк из каждого раздела за определенный месяц.
В настоящее время я делаю это, используя ранг внутри каждого раздела, упорядочивая по rand(), а затем фильтруя по рангу, но это занимает почти 45-60 минут.
Есть ли более быстрый способ сделать то же самое без ущерба для качества выборки?
РЕДАКТИРОВАТЬ Моя таблица не привязана