Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

PySpark: múltiples condiciones en la cláusula when

Me gustaría modificar los valores de celda de una columna de marco de datos (Edad) donde actualmente está en blanco y solo lo haría si otra columna (Sobrevivido) tiene el valor 0 para la fila correspondiente donde está en blanco para Edad. Si es ...

3 la respuesta

¿Por qué resultados inconsistentes usando la resta en reducir?

Dado lo siguiente: val rdd = List(1,2,3)lo asumordd.reduce((x,y) => (x - y)) volvería-4 (es decir.(1-2)-3=-4), pero volvió2. ¿Por qué?

2 la respuesta

Spark: ¿cuál es la mejor estrategia para unir un RDD de 2 tuplas con un RDD de una sola tecla?

1 la respuesta

Configuración de textinputformat.record.delimiter en la chispa

En Spark, es posible establecer algunos ajustes de configuración de hadoop como, por ejemplo,

2 la respuesta

¿Cuántas particiones crea Spark cuando se carga un archivo desde el bucket de S3?

Si el archivo se carga desde HDFS de forma predeterminada, spark crea una partición por bloque. Pero, ¿cómo decide chispa las particiones cuando se carga un archivo desde el depósito S3?

2 la respuesta

Error al crear cliente de chispa: excepción de colmena en chispa

He cambiado mi motor de ejecución de colmena a SPARK. al hacer cualquier DML / DDL obtengo una excepción por debajo. hive> select count(*) from tablename; Query ID = jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36 Total jobs = ...

1 la respuesta

Reenviar los valores faltantes en Spark / Python

Estoy tratando de completar los valores faltantes en mi marco de datos de Spark con el valor anterior no nulo (si existe). He hecho este tipo de cosas en Python / Pandas pero mis datos son demasiado grandes para Pandas (en un grupo pequeño) y soy ...

2 la respuesta

Spark Scala: Cómo convertir Dataframe [vector] a DataFrame [f1: Double, ..., fn: Double)]

Acabo de usar Standard Scaler para normalizar mis funciones para una aplicación ML. Después de seleccionar las características escaladas, quiero convertir esto nuevamente en un marco de datos de Dobles, aunque la longitud de mis vectores ...

1 la respuesta

Cómo convertir un RDD [Fila] de nuevo a DataFrame [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo convertir objetos rdd a dataframe en spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respuestasHe estado jugando con la conversión de RDD a DataFrames y ...

6 la respuesta

Concatenar dos marcos de datos PySpark

Estoy tratando de concatenar dos marcos de datos PySpark con algunas columnas que solo están en cada uno de ellos: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...