Resultados de la búsqueda a petición "apache-spark"
Error de serialización de chispa
Estoy tratando de aprender spark + scala. Quiero leer de HBase, pero sin mapreduce. Creé una tabla simple de HBase - "prueba" e hice 3 puestos en ella. Quiero leerlo por chispa (sin HBaseTest que usa mapreduce). Traté de ejecutar los siguientes ...
¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?
Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...
Los trabajadores de Spark no pueden encontrar JAR en el clúster EC2
Estoy usando spark-ec2 para ejecutar un código Spark. Cuando configuro master en "local", funciona bien. Sin embargo, cuando configuro master en $ MASTER, los trabajadores fallan inmediatamente, con java.lang.NoClassDefFoundError para las clases. ...
La prueba SBT no funciona para la prueba de chispa
Tengo una función de chispa simple para probar la ventana DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...
¿Por qué el formato ("kafka") falla con "No se pudo encontrar la fuente de datos: kafka" (incluso con uber-jar)?
Yo uso HDP-2.6.3.0 con el paquete Spark2 2.2.0. Estoy tratando de escribir un consumidor de Kafka, usando la API de transmisión estructurada, pero obtengo el siguiente error después de enviar el trabajo al clúster: Exception in thread "main" ...
Aplicar una transformación a múltiples columnas pyspark dataframe
Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...
SPARK + Clúster independiente: no se puede iniciar el trabajador desde otra máquina
He estado configurando una configuración de clúster independiente de Spark siguiendo este enlace [http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually] . Tengo 2 máquinas; El primero (ubuntu0) sirve como maestro y ...
¿Cómo establecer parámetros para un Transformador PySpark personalizado una vez que es una etapa en una Tubería ML ajustada?
He escrito un ML Pipeline personalizadoEstimator yTransformer para mi propio algoritmo Python siguiendo el patrón que se muestraaquí [https://stackoverflow.com/a/37279526/1843329]. Sin embargo, en ese ejemplo, todos los parámetros necesarios ...
¿Cómo ordenar un RDD en Scala Spark?
Lectura del método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...
Excepción Apache Spark EOF
Recibo una EOFException cuando ejecuto un trabajo simple que lee un archivo de texto y recopila los resultados. Esto funciona bien en mi máquina de desarrollo, pero falla al ejecutarlo en modo independiente (máquina única, maestro + trabajador). ...