Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿La estructura anidada de Spark DataFrame está limitada para la selección?

Tengo un archivo json con algunos datos, puedo crear DataFrame a partir de él y el esquema para una parte en particular en la que estoy interesado es el siguiente: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- ...

1 la respuesta

¿Cómo saber la cantidad de trabajos y etapas de Spark en la consulta de unión (broadcast)?

Yo uso Spark 2.1.2. Estoy tratando de comprender varias visualizaciones de la pestaña UI de chispa frente a un trabajo. yo suelospark-shell --master local y haciendo lo siguientejoin consulta: val df = Seq( (55, "Canada", -1, "", 0), (77, ...

4 la respuesta

Apache Spark, agregue una columna calculada "CASO CUANDO ... OTRO ..." a un DataFrame existente

Estoy tratando de agregar una columna calculada "CASO CUANDO ... ELSE ..." a un DataFrame existente, usando las API de Scala. Marco de datos inicial: color Red Green BlueMarco de datos deseado (sintaxis SQL: CASO CUANDO color == Verde ENTONCES 1 ...

3 la respuesta

Cómo escapar de los nombres de columna con guión en Spark SQL

Importé un archivo json en Spark y lo convertí en una tabla como myDF.registerTempTable("myDF")Luego quiero ejecutar consultas SQL en esta tabla resultante val newTable = sqlContext.sql("select column-1 from myDF")Sin embargo, esto me da un ...

1 la respuesta

Problema con UDF en una columna de Vectores en PySpark DataFrame

Tengo problemas para usar un UDF en una columna de Vectores en PySpark que se puede ilustrar aquí: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

3 la respuesta

fusionar múltiples archivos pequeños en unos pocos archivos más grandes en Spark

Estoy usando la colmena a través de Spark. Tengo una consulta Insertar en tabla particionada en mi código de chispa. Los datos de entrada están en 200 + gb. Cuando Spark está escribiendo en una tabla particionada, está escupiendo archivos muy ...

3 la respuesta

¿Cómo usar la fuente JDBC para escribir y leer datos en (Py) Spark?

El objetivo de esta pregunta es documentar: pasos necesarios para leer y escribir datos utilizando conexiones JDBC en PySpark posibles problemas con las fuentes JDBC y las soluciones conocidas Con pequeños cambios, estos métodos deberían ...

1 la respuesta

Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R

Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión? ¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar ...

5 la respuesta

Escribir RDD como archivo de texto usando Apache Spark

Estoy explorando Spark para el procesamiento por lotes. Estoy ejecutando la chispa en mi máquina local usando el modo independiente. Estoy tratando de convertir el Spark RDD como archivo único [salida final] usando el método saveTextFile (), ...

5 la respuesta

¿Cómo definir la partición de DataFrame?

Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos con las que estoy trabajando contiene una lista de transacciones, ...