Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Cómo manejar entradas nulas en SparkR

Tengo un SparkSQL DataFrame. Algunas entradas en estos datos están vacías pero no se comportan como NULL o NA. ¿Cómo podría eliminarlos? ¿Algunas ideas? En R puedo eliminarlos fácilmente, pero en sparkR dice que hay un problema con el sistema / ...

9 la respuesta

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...

1 la respuesta

Spark mllib prediciendo un número extraño o NaN

Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...

1 la respuesta

Error de 'Conexión rechazada' al ejecutar Spark Streaming en la máquina local

Sé que ya hay muchos hilos sobre problemas de 'conexión de transmisión de chispa rechazada'. Pero la mayoría de estos están en Linux o al menos apuntan a HDFS. Estoy ejecutando esto en mi computadora portátil local con Windows. Estoy ejecutando ...

1 la respuesta

Siempre aumentando la memoria física para una aplicación Spark en YARN

Estoy ejecutando una aplicación Spark en YARN que tiene dos ejecutores con Xms / Xmx como 32 GB y spark.yarn.excutor.memoryOverhead como 6 GB. Estoy viendo que la memoria física de la aplicación está aumentando y finalmente el administrador de ...

2 la respuesta

SPARK ¿Es el método de muestreo en Dataframes muestreo uniforme?

Quiero elegir aleatoriamente un número selecto de filas de un marco de datos y sé que el método de muestra hace esto, pero me preocupa que mi aleatoriedad sea un muestreo uniforme. Entonces, me preguntaba si el método de muestra de Spark en ...

5 la respuesta

Reemplazo SPARK SQL para la función agregada mysql GROUP_CONCAT

Tengo una tabla de dos columnas de tipo cadena (nombre de usuario, amigo) y para cada nombre de usuario, quiero recopilar todos sus amigos en una fila, concatenados como cadenas ('nombre de usuario1', 'amigos1, amigos2, amigos3'). Sé que MySql ...

1 la respuesta

error: no encontrado: valor sc

Soy nuevo en Scala y estoy tratando de codificar leer un archivo usando el siguiente código scala> val textFile = sc.textFile("README.md") scala> textFile.count()Pero sigo recibiendo el siguiente error error: not found: value scHe intentado ...

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

3 la respuesta

El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión

Soy bastante nuevo en Spark e intento implementar algún algoritmo iterativo para la agrupación (expectativa-maximización) con centroide representado por el modelo de Markov. Entonces necesito hacer iteraciones y uniones. Un problema que ...