Resultados de la búsqueda a petición "apache-spark"
Cómo extraer los mejores parámetros de un CrossValidatorModel
Quiero encontrar los parámetros deParamGridBuilder que hacen el mejor modelo en CrossValidator en Spark 1.4.x, EnEjemplo de tubería [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] en la ...
Cómo pasar toda la fila a UDF - Filtro Spark DataFrame
Estoy escribiendo la función de filtro para un conjunto de datos JSON complejo con muchas estructuras internas. Pasar columnas individuales es demasiado engorroso. Entonces declare el siguiente UDF: val records:DataFrame = = ...
Calcular la desviación estándar de datos agrupados en un Spark DataFrame
Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...
¿Cómo lidiar con tareas que se ejecutan demasiado tiempo (en comparación con otras en el trabajo) en Yarn-Client?
Usamos un cluster Spark comoyarn-client para calcular varios negocios, pero a veces tenemos una tarea que se ejecuta demasiado tiempo: [/imgs/IWSbQ.png] No establecemos el tiempo de espera, pero creo que el tiempo de espera predeterminado es ...
SPARK: falla: `` unión '' esperada pero `('encontrada
Tengo un marco de datos llamado df con una columna llamada employee_id. Estoy haciendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...
¿Cómo visualizo / trazo un árbol de decisión en Apache Spark (PySpark 1.4.1)?
Estoy usando Apache Spark Mllib 1.4.1 (PySpark, la implementación de Python de Spark) para generar un árbol de decisión basado en los datos de La LabelPoint que tengo. El árbol se genera correctamente y puedo imprimirlo en la terminal (extraer ...
PhoenixOutputFormat no se encuentra al ejecutar un trabajo Spark en CDH 5.4 con Phoenix 4.5
Logré configurar Phoenix 4.5 en Cloudera CDH 5.4 volviendo a compilar el código fuente.sqlline.py funciona bien, pero hay problemas con la chispa. spark-submit --class my.JobRunner \ --master yarn --deploy-mode client \ --jars `ls -dm ...
Pyspark: Excepción: el proceso de puerta de enlace Java salió antes de enviar al controlador su número de puerto
Estoy tratando de ejecutar pyspark en mi MacBook Air. Cuando intento iniciarlo, aparece el error: Exception: Java gateway process exited before sending the driver its port number cuando sc = SparkContext () se llama al inicio. He intentado ...
Spark dataframes groupby en la lista
Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...
Py4JJavaError en chispa
Tengo el siguiente código a través del cual estoy tratando de hacer expresiones regulares para encontrar y reemplazar en spark usando pyspark. archivokey tiene 182417 filas y archivojob tiene 234085 filas. Estoy ejecutando pyspark en mi máquina ...