Spark dataframe выбор столбца из строки

#scala #apache-spark

Привет, я хочу создать df с одним столбцом из df с несколькими столбцами. Смотрите этот псевдокод:

 df=[(id1,text),(id2,text2),...] //df where each row has two columns "id","text"
id_column=df.map(row=>row._1)

Как я могу это сделать в spark??

Вы можете сделать это с помощью select

 val df : DataFrame=[(id1,text),(id2,text2),...] //df where each row has two columns "id","text"

val dfResult: DataFrame = df.select("id")

Если вы не знаете имя столбца и не знаете позицию, вы также можете сделать:

 df.select(aux.columns(0))

Нашел!! Чего я хотел, так это:

 having a df like:
| id | text  |
| 1  |  bla1 |     
| 2  | foo   |
//real scala/spark code...
just_ids=df.map(row=>row.getAs[Int](0))