Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 segundos]"?

Estoy usando Spark 1.5. Tengo dos marcos de datos de la forma: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = ...

1 la respuesta

Descarte de particiones de DataFrame vacías en Apache Spark

Intento repartir un DataFrame de acuerdo con una columna que tiene el DataFrameN (DigamosN=3) diferentes valores en la columna de particiónx, p.ej: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataLo que me gusta lograr ...

2 la respuesta

Cluster de hilo de chispa vs cliente: ¿cómo elegir cuál usar?

La chispadocs [https://spark.apache.org/docs/1.6.2/running-on-yarn.html#configuration]tiene el siguiente párrafo que desciende la diferencia entre cliente de hilo y grupo de hilos: Hay dos modos de implementación que se pueden usar para iniciar ...

1 la respuesta

Contenido dividido de la columna String en PySpark Dataframe

Tengo un marco de datos pyspark que tiene una columna que contiene cadenas. Quiero dividir esta columna en palabras. Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', ...

7 la respuesta

Cómo convertir Row a json en Spark 2 Scala

¿Hay una manera simple de convertir un objeto Row dado a json? Encontré esto acerca de convertir un Dataframe completo a salida json:Spark Row a JSON [https://stackoverflow.com/questions/36157810/spark-row-to-json] Pero solo quiero convertir ...

1 la respuesta

pyspark: Crear columna MapType a partir de columnas existentes

Necesito crear una nueva columna Spark DF MapType basada en las columnas existentes donde el nombre de la columna es la clave y el valor es el valor. Como ejemplo, tengo este DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, ...

1 la respuesta

Autenticación del servidor de historial de chispas en clúster kerberizado

Configuré un clúster HDP que contiene, entre otros, Spark. También habilité Kerberos para el clúster, para que todos los servicios y usuarios tengan que autenticarse a través de sus principales. Esto parece funcionar bien, todos los servicios se ...

2 la respuesta

Error de obtención NoClassDefFoundError: org.apache.spark.internal.Logging en Kafka Spark Stream

Recibo un error en el tiempo de ejecución al ejecutar debajo del código de Java, ¿Hay alguna dependencia que deba incluir para iniciar sesión como log4js o algo así? ¿Por qué este error no aparece en tiempo de compilación para que sea más ...

1 la respuesta

Establecer Spark como motor de ejecución predeterminado para Hive

Hadoop 2.7.3, Spark 2.1.0 y Hive 2.1.1. Estoy tratando de establecer la chispa como motor de ejecución predeterminado para la colmena. Subí todos los frascos en $ SPARK_HOME / jars a la carpeta hdfs y copié los frascos scala-library, spark-core ...

1 la respuesta

Spark que lee el archivo WARC con InputFormat personalizado

Necesito procesar un archivo .warc a través de Spark, pero parece que no puedo encontrar una manera sencilla de hacerlo. Preferiría usar Python y no leer todo el archivo en un RDD a través dewholeTextFiles() (porque todo el archivo se procesaría ...