Условный почтовый индекс Akka stream

#scala #stream #akka #bigdata #akka-stream

Вопрос:

передаваемые данные упорядочиваются по идентификатору из файлов IMDB tsv : https://www.imdb.com/interfaces/

 ...
tt0000119   short   Rescue on the River, Pt. 2  Sauvetage en rivière, 1er   0   1896    N  N  Documentary,Short
tt0000120   short   Rescue on the River, Pt. 1  Sauvetage en rivière, 2e    0   1896    N  N  Documentary,Short
tt0000121   short   The Soldier's Courtship The Soldier's Courtship 0   1896    N  1   Comedy,Short
tt0000123   short   Conjuring   Séance de prestidigitation  0   1896    N  N  Short
...
 
 ...
tt0000121   1   nm0832461   actor   N  ["The Soldier"]
tt0000121   2   nm0780534   actress N  ["The Girl"]
tt0000121   3   nm5718242   actress N  ["The Woman"]
tt0000121   4   nm0609678   director    N  N
tt0000121   5   nm0666972   producer    producer    N
tt0000122   1   nm0617588   director    N  N
tt0000123   1   nm0617588   self    N  ["Self (stage magician)"]
...
 

Я пытаюсь придумать способ потоковой передачи актеров входного названия фильма.
В основном это объединение данных участников в идентификаторе tconst фильма.

Сначала я подумал о том, чтобы сначала сгруппировать участников с помощью tconst, а затем заархивировать данные фильмов, но, к сожалению, некоторые идентификаторы могут отсутствовать, что приведет к повреждению почтового индекса.

Очевидно, что FlapMatConcat работает слишком медленно.

Есть какие-нибудь идеи о том, как я мог бы заархивировать данные фильмов и пропустить группу актеров, если они не совпадают?

Комментарии:

1. Возможно, вы пытаетесь использовать неправильный инструмент для того, что вам нужно. Похоже, вы хотите загрузить эти данные в реляционную базу данных и запросить их с помощью соединений sql.