#mongodb #pyspark
Вопрос:
Я пытаюсь прочитать из базы данных mongo в pyspark. Я хочу читать только документы с определенным строковым полем, которое начинается с «некоторой строки».
Этот работает просто отлично:
ppl = "[{'$match': {'field.sub': 'abcde'}}, {'$limit': 100}]"
df = spark.read.format('mongo').option('pipeline', ppl).load()
Но когда я переключусь на:
ppl = "[{'$match': {'field.sub': '/ab'}}, {'$limit': 100}]"
df = spark.read.format('mongo').option('pipeline', ppl).load()
Я получаю нулевые записи. Любая мысль о том, как я могу фильтровать по первым буквам строк из field.sub
Комментарии:
1. Используйте $регулярное выражение вместо $match