Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Error de serialización de chispa

Estoy tratando de aprender spark + scala. Quiero leer de HBase, pero sin mapreduce. Creé una tabla simple de HBase - "prueba" e hice 3 puestos en ella. Quiero leerlo por chispa (sin HBaseTest que usa mapreduce). Traté de ejecutar los siguientes ...

1 la respuesta

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando. pyspark - maestro local [2] Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna ...

2 la respuesta

Los trabajadores de Spark no pueden encontrar JAR en el clúster EC2

Estoy usando spark-ec2 para ejecutar un código Spark. Cuando configuro master en "local", funciona bien. Sin embargo, cuando configuro master en $ MASTER, los trabajadores fallan inmediatamente, con java.lang.NoClassDefFoundError para las clases. ...

4 la respuesta

La prueba SBT no funciona para la prueba de chispa

Tengo una función de chispa simple para probar la ventana DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...

2 la respuesta

¿Por qué el formato ("kafka") falla con "No se pudo encontrar la fuente de datos: kafka" (incluso con uber-jar)?

Yo uso HDP-2.6.3.0 con el paquete Spark2 2.2.0. Estoy tratando de escribir un consumidor de Kafka, usando la API de transmisión estructurada, pero obtengo el siguiente error después de enviar el trabajo al clúster: Exception in thread "main" ...

1 la respuesta

Aplicar una transformación a múltiples columnas pyspark dataframe

Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...

4 la respuesta

SPARK + Clúster independiente: no se puede iniciar el trabajador desde otra máquina

He estado configurando una configuración de clúster independiente de Spark siguiendo este enlace [http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually] . Tengo 2 máquinas; El primero (ubuntu0) sirve como maestro y ...

1 la respuesta

¿Cómo establecer parámetros para un Transformador PySpark personalizado una vez que es una etapa en una Tubería ML ajustada?

He escrito un ML Pipeline personalizadoEstimator yTransformer para mi propio algoritmo Python siguiendo el patrón que se muestraaquí [https://stackoverflow.com/a/37279526/1843329]. Sin embargo, en ese ejemplo, todos los parámetros necesarios ...

3 la respuesta

¿Cómo ordenar un RDD en Scala Spark?

Lectura del método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...

1 la respuesta

Excepción Apache Spark EOF

Recibo una EOFException cuando ejecuto un trabajo simple que lee un archivo de texto y recopila los resultados. Esto funciona bien en mi máquina de desarrollo, pero falla al ejecutarlo en modo independiente (máquina única, maestro + trabajador). ...