Resultados de la búsqueda a petición "apache-spark"
¿Cómo convertir la marca de tiempo al formato de fecha en DataFrame?
tengo unDataFrame conTimestamp columna, que necesito convertir comoDate formato. ¿Hay alguna función Spark SQL disponible para esto?
¿Por qué el número de particiones después de groupBy 200? ¿Por qué este 200 no es otro número?
Es Spark 2.2.0-INSTANTÁNEA. ¿Por qué es el número de particiones despuésgroupBy transformación 200 en el siguiente ejemplo? scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions res0: Int = 200¿Qué tiene de especial?200? ¿Por qué ...
Dataframe to Dataset que tiene el tipo Any
Recientemente me mudé de Spark 1.6 a Spark 2.X y también me gustaría pasar, cuando sea posible, de Dataframes a Datasets. Probé un código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como puedes ...
¿Podemos actualizar el modelo existente en spark-ml / spark-mllib?
Estamos utilizando spark-ml para construir el modelo a partir de datos existentes. Nuevos datos llegan a diario. ¿Hay alguna manera de que solo podamos leer los nuevos datos y actualizar el modelo existente sin tener que leer todos los datos y ...
Tratar con un gran archivo comprimido en Spark
Tengo un gran archivo comprimido (aproximadamente 85 GB comprimido) de s3 que estoy tratando de procesar con Spark en AWS EMR (ahora mismo con una instancia maestra m4.xlarge y dos instancias principales m4.10xlarge cada una con un volumen EBS de ...
java.lang.NoClassDefFoundError: org / apache / spark / Logging
Siempre recibo el siguiente error. ¿Puede alguien ayudarme por favor? Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/Logging at java.lang.ClassLoader.defineClass1(Native Method) ...
Cómo excluir jar en el complemento final de ensamblaje sbt
Necesito excluir las dependencias de chispa y prueba de mi jar de ensamblaje final. Traté de usarprovider Pero no estaba funcionando. libraryDependencies ++= Seq("org.apache.spark" % "spark-core_2.11" % "2.0.1" % "provided")y ejecutarsbt ...
¿Cómo derretir Spark DataFrame?
¿Hay un equivalente de la función Pandas Melt en Apache Spark en PySpark o al menos en Scala? Estaba ejecutando un conjunto de datos de muestra hasta ahora en python y ahora quiero usar Spark para todo el conjunto de datos. Gracias por adelantado.
Excepción de chispa al convertir una tabla MySQL a parquet
Estoy tratando de convertir una tabla remota de MySQL en un archivo de parquet usando spark 1.6.2. El proceso se ejecuta durante 10 minutos, llenando la memoria, que comienza con estos mensajes: WARN NettyRpcEndpointRef: Error sending message ...
Ejecución de Spark en clúster: el trabajo inicial no ha aceptado ningún recurso
Tengo un servidor Ubuntu remoto enlinode.com [http://linode.com]con 4 núcleos y 8G RAMTengo un clúster Spark-2 que consta de 1 maestro y 1 esclavo en mi servidor Ubuntu remoto.He iniciado PySpark Shell localmente en mi MacBook, conectado a mi ...