Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...

3 la respuesta

Pyspark: Reemplazar valor en una columna buscando un diccionario

Soy un novato en PySpark. Tengo una chispaDataFrame df que tiene una columna 'tipo_dispositivo'. Quiero reemplazar cada valor que está en "Tableta" o "Teléfono" a "Teléfono", y reemplazar "PC" a "Escritorio". En Python puedo hacer lo ...

2 la respuesta

¿Spark.sql.autoBroadcastJoinThreshold funciona para uniones usando el operador de unión de Dataset?

Me gustaria saber sispark.sql.autoBroadcastJoinThreshold La propiedad puede ser útil para difundir una tabla más pequeña en todos los nodos de trabajo (al hacer la unión) incluso cuando el esquema de unión usa la unión de la API del conjunto de ...

0 la respuesta

Copie archivos (config) de HDFS al directorio de trabajo local de cada ejecutor de chispa

Estoy buscando cómo copiar una carpeta con archivos de dependencias de recursos de HDFS a un directorio de trabajo local de cada ejecutor de chispa usando Java. Al principio estaba pensando en usar la opción --files FILES de spark-submit pero ...

2 la respuesta

spark createOrReplaceTempView vs createGlobalTempView

Spark Dataset 2.0 proporciona dos funcionescreateOrReplaceTempView ycreateGlobalTempView. No puedo entender la diferencia básica entre ambas funciones. De acuerdo aDocumentos ...

3 la respuesta

¿Cómo funciona createOrReplaceTempView en Spark?

Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?

1 la respuesta

SparkException: solo se puede ejecutar un SparkContext en esta JVM (consulte SPARK-2243)

Veo varias publicaciones que contienen el mismo error que el error que estoy recibiendo, pero ninguna me está llevando a una solución en mi código. He usado este mismo código muchas veces sin problemas y ahora estoy teniendo problemas. Aquí está ...

2 la respuesta

¿Cómo calcular la diferencia de fecha en pyspark?

Tengo datos como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quiero ...

4 la respuesta

¿Por qué falla spark-shell con "fue inesperado en este momento"?

Recibo el siguiente error al ejecutar el comando spark-shell: [/imgs/j7s6c.png] He descargado el archivo spark-2.1.1-bin-hadoop2.7.tgz de http://spark.apache.org/downloads.html [http://spark.apache.org/downloads.html], extrajo el archivo tar y ...

2 la respuesta

¿Cómo forzar inferSchema para CSV a considerar enteros como fechas (con la opción "dateFormat")?

Yo uso Spark 2.2.0 Estoy leyendo un archivo csv de la siguiente manera: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)Hay una columna de fecha en este ...