Resultados de la búsqueda a petición "apache-spark"

8 la respuesta

Cómo extraer los mejores parámetros de un CrossValidatorModel

Quiero encontrar los parámetros deParamGridBuilder que hacen el mejor modelo en CrossValidator en Spark 1.4.x, EnEjemplo de tubería [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] en la ...

2 la respuesta

Cómo pasar toda la fila a UDF - Filtro Spark DataFrame

Estoy escribiendo la función de filtro para un conjunto de datos JSON complejo con muchas estructuras internas. Pasar columnas individuales es demasiado engorroso. Entonces declare el siguiente UDF: val records:DataFrame = = ...

1 la respuesta

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...

2 la respuesta

¿Cómo lidiar con tareas que se ejecutan demasiado tiempo (en comparación con otras en el trabajo) en Yarn-Client?

Usamos un cluster Spark comoyarn-client para calcular varios negocios, pero a veces tenemos una tarea que se ejecuta demasiado tiempo: [/imgs/IWSbQ.png] No establecemos el tiempo de espera, pero creo que el tiempo de espera predeterminado es ...

2 la respuesta

SPARK: falla: `` unión '' esperada pero `('encontrada

Tengo un marco de datos llamado df con una columna llamada employee_id. Estoy haciendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...

2 la respuesta

¿Cómo visualizo / trazo un árbol de decisión en Apache Spark (PySpark 1.4.1)?

Estoy usando Apache Spark Mllib 1.4.1 (PySpark, la implementación de Python de Spark) para generar un árbol de decisión basado en los datos de La LabelPoint que tengo. El árbol se genera correctamente y puedo imprimirlo en la terminal (extraer ...

1 la respuesta

PhoenixOutputFormat no se encuentra al ejecutar un trabajo Spark en CDH 5.4 con Phoenix 4.5

Logré configurar Phoenix 4.5 en Cloudera CDH 5.4 volviendo a compilar el código fuente.sqlline.py funciona bien, pero hay problemas con la chispa. spark-submit --class my.JobRunner \ --master yarn --deploy-mode client \ --jars `ls -dm ...

16 la respuesta

Pyspark: Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto

Estoy tratando de ejecutar pyspark en mi MacBook Air. Cuando intento iniciarlo, aparece el error: Exception: Java gateway process exited before sending the driver its port number cuando sc = SparkContext () se llama al inicio. He intentado ...

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

0 la respuesta

Py4JJavaError en chispa

Tengo el siguiente código a través del cual estoy tratando de hacer expresiones regulares para encontrar y reemplazar en spark usando pyspark. archivokey tiene 182417 filas y archivojob tiene 234085 filas. Estoy ejecutando pyspark en mi máquina ...