Spark - ProgramBox

Spark, выведите отдельную схему для каждого объекта JSON в массиве JSON

Post author:admin
Запись опубликована:17 января, 2022
Post category:Вопросы по программированию

#json #scala #dataframe #apache-spark #schema Вопрос: У меня есть файл JSON. Каждая строка представляет собой массив объектов. Например, это первая строка: [{"id":"JklsdgNkl543", "field1":"value1", "field2":{"nestedField1":"1", "nestedField2":2}}, {"id":"rweiuTH2325d", "field1":"smthng", "field2":{"nestedField1":"6", "nestedField2":8}}, ...,…

Продолжить чтение

Удалите из фрейма данных A все, что не находится в фрейме данных B (огромный df1, spark)

Post author:admin
Запись опубликована:13 января, 2022
Post category:Вопросы по программированию

#apache-spark Вопрос: Допустим, у нас есть 2 кадра данных. Первый содержит около 120 миллиардов строк с примерно 25 столбцами размером в пару терабайт. Это выглядит так: кола Кольб Кольк ...…

Продолжить чтение

Spark, почему добавление предложения » или » внутри соединения создает декартов план продукта

Post author:admin
Запись опубликована:11 января, 2022
Post category:Вопросы по программированию

#apache-spark #pyspark #apache-spark-sql Вопрос: У меня есть два следующих кадра данных: df1: --- --- | a| b| --- --- | 1| 2| | 1| 3| | 1| 4| | 2|…

Продолжить чтение

Spark, как узнать возвращаемое значение выполнения SQL, содержащего SP

Post author:admin
Запись опубликована:8 января, 2022
Post category:Вопросы по программированию

#scala #apache-spark #databricks Вопрос: у нас есть хранимая процедура(SP) в SQL Server, которая вызывается из Spark (scala) var query = "exec " SP_Name " '" system "','" system_id "','" date…

Продолжить чтение