Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.

я есть существующий фрейм данных Spark, который имеет столбцы как таковые:

--------------------
pid | response
--------------------
 12 | {"status":"200"}

ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные поля? Можно ли использовать вид сбоку, как в Hive? Я посмотрел несколько примеров в строке, которые использовали разнесение и более поздний просмотр, но, похоже, он не работает со Spark 2.1.1

Ответы на вопрос(1)

Решение Вопроса

get_json_object, json_tuple для извлечения полей из строки json, как показано ниже,

>>from pyspark.sql.functions import json_tuple,from_json,get_json_object
>>> from pyspark.sql import SparkSession
>>> spark = SparkSession.builder.getOrCreate()
>>> l = [(12, '{"status":"200"}'),(13,'{"status":"200","somecol":"300"}')]
>>> df = spark.createDataFrame(l,['pid','response'])
>>> df.show()
+---+--------------------+
|pid|            response|
+---+--------------------+
| 12|    {"status":"200"}|
| 13|{"status":"200","...|
+---+--------------------+

>>> df.printSchema()
root
 |-- pid: long (nullable = true)
 |-- response: string (nullable = true)

Using json_tuple :
>>> df.select('pid',json_tuple(df.response,'status','somecol')).show()
+---+---+----+
|pid| c0|  c1|
+---+---+----+
| 12|200|null|
| 13|200| 300|
+---+---+----+

Using from_json:
>>> schema = StructType([StructField("status", StringType()),StructField("somecol", StringType())])
>>> df.select('pid',from_json(df.response, schema).alias("json")).show()
+---+----------+
|pid|      json|
+---+----------+
| 12|[200,null]|
| 13| [200,300]|
+---+----------+

Using get_json_object:
>>> df.select('pid',get_json_object(df.response,'$.status').alias('status'),get_json_object(df.response,'$.somecol').alias('somecol')).show()
+---+------+-------+
|pid|status|somecol|
+---+------+-------+
| 12|   200|   null|
| 13|   200|    300|
+---+------+-------+
 halil26 янв. 2018 г., 15:19
Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.

Ваш ответ на вопрос