#scala #apache-spark #apache-spark-sql #databricks
#scala #apache-spark #apache-spark-sql #databricks
Вопрос:
У меня есть вызов фрейма данных ProductPrice с идентификатором столбца и ценой, я хочу получить идентификатор, у которого была самая высокая цена, если два идентификатора имеют одинаковую самую высокую цену, я получаю только тот, у которого меньший идентификационный номер. Я использую
val highestprice = productPrice.orderBy(asc("ID")).orderBy(desc("price")).limit(1)
Но результат, который я получил, — это не тот, который имеет меньший идентификатор, вместо этого я получил тот, который имеет больший идентификатор. Я не знаю, что не так с моей логикой, есть идеи?
Ответ №1:
Попробуйте это.
scala> val df = Seq((4, 30),(2,50),(3,10),(5,30),(1,50),(6,25)).toDF("id","price")
df: org.apache.spark.sql.DataFrame = [id: int, price: int]
scala> df.show
--- -----
| id|price|
--- -----
| 4| 30|
| 2| 50|
| 3| 10|
| 5| 30|
| 1| 50|
| 6| 25|
--- -----
scala> df.sort(desc("price"), asc("id")).show
--- -----
| id|price|
--- -----
| 1| 50|
| 2| 50|
| 4| 30|
| 5| 30|
| 6| 25|
| 3| 10|
--- -----
Ответ №2:
Подход к той же проблеме с использованием Spark SQL:
val df = Seq((4, 30),(2,50),(3,10),(5,30),(1,50),(6,25)).toDF("id","price")
df.createOrReplaceTempView("prices")
—
%sql
SELECT id, price
FROM prices
ORDER BY price DESC, id ASC
LIMIT(1)