Resultados de la búsqueda a petición "apache-spark"
PySpark: múltiples condiciones en la cláusula when
Me gustaría modificar los valores de celda de una columna de marco de datos (Edad) donde actualmente está en blanco y solo lo haría si otra columna (Sobrevivido) tiene el valor 0 para la fila correspondiente donde está en blanco para Edad. Si es ...
¿Por qué resultados inconsistentes usando la resta en reducir?
Dado lo siguiente: val rdd = List(1,2,3)lo asumordd.reduce((x,y) => (x - y)) volvería-4 (es decir.(1-2)-3=-4), pero volvió2. ¿Por qué?
Configuración de textinputformat.record.delimiter en la chispa
En Spark, es posible establecer algunos ajustes de configuración de hadoop como, por ejemplo,
¿Cuántas particiones crea Spark cuando se carga un archivo desde el bucket de S3?
Si el archivo se carga desde HDFS de forma predeterminada, spark crea una partición por bloque. Pero, ¿cómo decide chispa las particiones cuando se carga un archivo desde el depósito S3?
Error al crear cliente de chispa: excepción de colmena en chispa
He cambiado mi motor de ejecución de colmena a SPARK. al hacer cualquier DML / DDL obtengo una excepción por debajo. hive> select count(*) from tablename; Query ID = jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36 Total jobs = ...
Reenviar los valores faltantes en Spark / Python
Estoy tratando de completar los valores faltantes en mi marco de datos de Spark con el valor anterior no nulo (si existe). He hecho este tipo de cosas en Python / Pandas pero mis datos son demasiado grandes para Pandas (en un grupo pequeño) y soy ...
Spark Scala: Cómo convertir Dataframe [vector] a DataFrame [f1: Double, ..., fn: Double)]
Acabo de usar Standard Scaler para normalizar mis funciones para una aplicación ML. Después de seleccionar las características escaladas, quiero convertir esto nuevamente en un marco de datos de Dobles, aunque la longitud de mis vectores ...
Cómo convertir un RDD [Fila] de nuevo a DataFrame [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cómo convertir objetos rdd a dataframe en spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respuestasHe estado jugando con la conversión de RDD a DataFrames y ...
Concatenar dos marcos de datos PySpark
Estoy tratando de concatenar dos marcos de datos PySpark con algunas columnas que solo están en cada uno de ellos: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...