Resultados de la búsqueda a petición "apache-spark"
DataFrame-ified zipWithIndex
Estoy tratando de resolver el antiguo problema de agregar un número de secuencia a un conjunto de datos. Estoy trabajando con DataFrames, y parece que no hay un DataFrame equivalente aRDD.zipWithIndex. Por otro lado, lo siguiente funciona más o ...
Spark Submit falla con java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $$ less $ colon $ less;
Estoy usando la versión de precompilación spark 1.3.1 spark-1.3.1-bin-hadoop2.6.tgz Excepción en el hilo "main" java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $ less $ colon $ less; en org.apache.spark.util.Utils $ ...
¿Cómo ordenar por columna en orden descendente en Spark SQL?
Lo intentédf.orderBy("col1").show(10) pero se ordenó en orden ascendente.df.sort("col1").show(10) También se ordena en orden descendente. Miré en stackoverflow y las respuestas que encontré estaban todas desactualizadas o referido a ...
Spark Python Deserializador Avro Kafka
He creado un flujo de kafka en una aplicación Python Spark y puedo analizar cualquier texto que llegue a través de él. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Quiero cambiar esto para poder ...
Aparece el error "No se pudo obtener una instancia de HMACSHA256" al acceder a Azure CosmosDB
Estoy tratando de escribir el marco de datos de Spark en Azure CosmosDB y he configurado toda la configuración correcta, pero obtengo el siguiente error al intentar escribir datos. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := ...
Pyspark, cómo dividir cuando hay varios delimitadores en una columna [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cargar archivo CSV con Spark [/questions/28782940/load-csv-file-with-spark] 11 respuestasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...
Lea algunos archivos de parquet al mismo tiempo en Spark
Puedo leer algunos archivos json al mismo tiempo usando * (estrella): sqlContext.jsonFile('/path/to/dir/*.json')¿Hay alguna manera de hacer lo mismo para el parquet? La estrella no funciona.
';' esperado pero 'importado' encontrado - Scala y Spark
Estoy tratando de trabajar con Spark y Scala, compilando una aplicación independiente. No sé por qué recibo este error: topicModel.scala:2: ';' expected but 'import' found. [error] import org.apache.spark.mllib.clustering.LDA [error] ^ [error] ...
¿Error de Hadoop "No se puede cargar la biblioteca de hadoop nativo para su plataforma" en docker-spark?
estoy usandodocker-spark [https://github.com/sequenceiq/docker-spark]. Despues de empezarspark-shell, produce: 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in ...
Manera adecuada de hacer un tarro de grasa con SBT
Necesito un Fat Jar con Spark porque estoy creando un nodo personalizado para Knime. Básicamente es un frasco autónomo ejecutado dentro de Knime y supongo que un Frasco gordo es la única forma de generar un trabajo Spark local. Eventualmente, ...