Resultados de la búsqueda a petición "apache-spark"
Cómo manejar entradas nulas en SparkR
Tengo un SparkSQL DataFrame. Algunas entradas en estos datos están vacías pero no se comportan como NULL o NA. ¿Cómo podría eliminarlos? ¿Algunas ideas? En R puedo eliminarlos fácilmente, pero en sparkR dice que hay un problema con el sistema / ...
Spark - repartition () vs coalesce ()
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...
Spark mllib prediciendo un número extraño o NaN
Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...
Error de 'Conexión rechazada' al ejecutar Spark Streaming en la máquina local
Sé que ya hay muchos hilos sobre problemas de 'conexión de transmisión de chispa rechazada'. Pero la mayoría de estos están en Linux o al menos apuntan a HDFS. Estoy ejecutando esto en mi computadora portátil local con Windows. Estoy ejecutando ...
Siempre aumentando la memoria física para una aplicación Spark en YARN
Estoy ejecutando una aplicación Spark en YARN que tiene dos ejecutores con Xms / Xmx como 32 GB y spark.yarn.excutor.memoryOverhead como 6 GB. Estoy viendo que la memoria física de la aplicación está aumentando y finalmente el administrador de ...
SPARK ¿Es el método de muestreo en Dataframes muestreo uniforme?
Quiero elegir aleatoriamente un número selecto de filas de un marco de datos y sé que el método de muestra hace esto, pero me preocupa que mi aleatoriedad sea un muestreo uniforme. Entonces, me preguntaba si el método de muestra de Spark en ...
Reemplazo SPARK SQL para la función agregada mysql GROUP_CONCAT
Tengo una tabla de dos columnas de tipo cadena (nombre de usuario, amigo) y para cada nombre de usuario, quiero recopilar todos sus amigos en una fila, concatenados como cadenas ('nombre de usuario1', 'amigos1, amigos2, amigos3'). Sé que MySql ...
error: no encontrado: valor sc
Soy nuevo en Scala y estoy tratando de codificar leer un archivo usando el siguiente código scala> val textFile = sc.textFile("README.md") scala> textFile.count()Pero sigo recibiendo el siguiente error error: not found: value scHe intentado ...
Conversión de RDD a La LabelPoint
Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...
El tiempo de iteración de chispa aumenta exponencialmente cuando se usa la unión
Soy bastante nuevo en Spark e intento implementar algún algoritmo iterativo para la agrupación (expectativa-maximización) con centroide representado por el modelo de Markov. Entonces necesito hacer iteraciones y uniones. Un problema que ...