#scala #stream #akka #bigdata #akka-stream
Вопрос:
передаваемые данные упорядочиваются по идентификатору из файлов IMDB tsv : https://www.imdb.com/interfaces/
...
tt0000119 short Rescue on the River, Pt. 2 Sauvetage en rivière, 1er 0 1896 N N Documentary,Short
tt0000120 short Rescue on the River, Pt. 1 Sauvetage en rivière, 2e 0 1896 N N Documentary,Short
tt0000121 short The Soldier's Courtship The Soldier's Courtship 0 1896 N 1 Comedy,Short
tt0000123 short Conjuring Séance de prestidigitation 0 1896 N N Short
...
- Действующие лица: https://datasets.imdbws.com/title.principals.tsv.gz
...
tt0000121 1 nm0832461 actor N ["The Soldier"]
tt0000121 2 nm0780534 actress N ["The Girl"]
tt0000121 3 nm5718242 actress N ["The Woman"]
tt0000121 4 nm0609678 director N N
tt0000121 5 nm0666972 producer producer N
tt0000122 1 nm0617588 director N N
tt0000123 1 nm0617588 self N ["Self (stage magician)"]
...
Я пытаюсь придумать способ потоковой передачи актеров входного названия фильма.
В основном это объединение данных участников в идентификаторе tconst
фильма.
Сначала я подумал о том, чтобы сначала сгруппировать участников с помощью tconst, а затем заархивировать данные фильмов, но, к сожалению, некоторые идентификаторы могут отсутствовать, что приведет к повреждению почтового индекса.
Очевидно, что FlapMatConcat работает слишком медленно.
Есть какие-нибудь идеи о том, как я мог бы заархивировать данные фильмов и пропустить группу актеров, если они не совпадают?
Комментарии:
1. Возможно, вы пытаетесь использовать неправильный инструмент для того, что вам нужно. Похоже, вы хотите загрузить эти данные в реляционную базу данных и запросить их с помощью соединений sql.