Spark, выведите отдельную схему для каждого объекта JSON в массиве JSON

#json #scala #dataframe #apache-spark #schema Вопрос: У меня есть файл JSON. Каждая строка представляет собой массив объектов. Например, это первая строка: [{"id":"JklsdgNkl543", "field1":"value1", "field2":{"nestedField1":"1", "nestedField2":2}}, {"id":"rweiuTH2325d", "field1":"smthng", "field2":{"nestedField1":"6", "nestedField2":8}}, ...,…

Продолжить чтениеSpark, выведите отдельную схему для каждого объекта JSON в массиве JSON

Удалите из фрейма данных A все, что не находится в фрейме данных B (огромный df1, spark)

#apache-spark Вопрос: Допустим, у нас есть 2 кадра данных. Первый содержит около 120 миллиардов строк с примерно 25 столбцами размером в пару терабайт. Это выглядит так: кола Кольб Кольк ...…

Продолжить чтениеУдалите из фрейма данных A все, что не находится в фрейме данных B (огромный df1, spark)

Spark, почему добавление предложения » или » внутри соединения создает декартов план продукта

#apache-spark #pyspark #apache-spark-sql Вопрос: У меня есть два следующих кадра данных: df1: --- --- | a| b| --- --- | 1| 2| | 1| 3| | 1| 4| | 2|…

Продолжить чтениеSpark, почему добавление предложения » или » внутри соединения создает декартов план продукта

Spark, как узнать возвращаемое значение выполнения SQL, содержащего SP

#scala #apache-spark #databricks Вопрос: у нас есть хранимая процедура(SP) в SQL Server, которая вызывается из Spark (scala) var query = "exec " SP_Name " '" system "','" system_id "','" date…

Продолжить чтениеSpark, как узнать возвращаемое значение выполнения SQL, содержащего SP