Resultados de la búsqueda a petición "apache-spark"
¿Cómo saber el modo de implementación de la aplicación PySpark?
Estoy tratando de solucionar un problema con la falta de memoria y quiero saber si necesito cambiar esta configuración en el archivo de configuraciones predeterminado (spark-defaults.conf) en la carpeta de inicio de spark. O, si puedo ...
Cómo dividir Vector en columnas - usando PySpark
Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...
Scala: escriba el registro en el archivo con log4j
Estoy tratando de construir un archivo jar basado en scala en eclipse que use log4j para crear registros. Se imprime perfectamente en la consola, pero cuando trato de usar el archivo log4j.properties para escribir en un archivo de registro, no ...
Spark Dataframe Recuento máximo de columnas
¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.
Error de chispa: se esperan cero argumentos para la construcción de ClassDict (para numpy.core.multiarray._reconstruct)
Tengo un marco de datos en Spark en el que una de las columnas contiene una matriz. Ahora, he escrito un UDF separado que convierte la matriz en otra matriz con valores distintos solo en ella. Ver ejemplo a continuación: Ex:[24,23,27,23]debería ...
Cómo arreglar java.lang.ClassCastException: no se puede asignar la instancia de scala.collection.immutable.List al tipo de campo scala.collection.Seq?
Este error ha sido el más difícil de rastrear. No estoy seguro de lo que está pasando. Estoy ejecutando un clúster de Spark en mi máquina de ubicación. así que todo el grupo de chispas está bajo un host que es127.0.0.1 y corro en ...
Spark :: KMeans llama a takeSample () dos veces?
Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...
Ejecutar hilo con chispa no funciona con Java 8
Tengo un clúster con 1 maestro y 6 esclavos que usa la versión preconstruida de hadoop 2.6.0 y spark 1.6.2. Estaba ejecutando hadoop MR y trabajos sin problemas con openjdk 7 instalado en todos los nodos. Sin embargo, cuando actualicé openjdk 7 a ...
Cómo compilar / empaquetar el proyecto Spark 2.0 con jarras externas y Maven
Desde la versión 2.0, Apache Spark se incluye con una carpeta "frascos" llena de archivos .jar. Obviamente, Maven descargará todos estos frascos cuando emita: mvn -e packageporque para enviar una solicitud con spark-submit --class DataFetch ...
¿Cómo realizar la unión en dos DataFrames con diferentes cantidades de columnas en chispa?
tengo 2DataFrames como sigue: [/imgs/L4qs0.png] Necesito una unión como esta: [/imgs/mdICY.png] losunionAll La función no funciona porque el número y el nombre de las columnas son diferentes. ¿Cómo puedo hacer esto?