Resultados de la búsqueda a petición "apache-spark"
La CLI de Spark-sql usa solo 1 ejecutor al ejecutar la consulta
Voy a usar spark-sql cli para reemplazar el shell hive cli, y ejecuto el spark-sql cli siguiendo el comando, (Estamos usando en el clúster Hadoop de hilados, el hive-site.xml ya copiado a / conf) .> spark-sql Entonces el shell se abre y funciona ...
¿Cómo puedo calcular la mediana exacta con Apache Spark?
Estapágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contiene algunas funciones estadísticas (media, stdev, varianza, etc.) pero no contiene la mediana. ¿Cómo puedo calcular la mediana exacta? Gracias
Spark no puede encurtir method_descriptor
Me sale este extraño mensaje de error 15/01/26 13:05:12 INFO spark.SparkContext: Created broadcast 0 from wholeTextFiles at NativeMethodAccessorImpl.java:-2 Traceback (most recent call last): File "/home/user/inverted-index.py", line 78, in ...
¿Cómo convertir la fila de un Scala DataFrame en clase de caso de la manera más eficiente?
Una vez que tengo en Spark alguna clase de fila, ya sea Dataframe o Catalyst, quiero convertirla en una clase de caso en mi código. Esto se puede hacer haciendo coincidir someRow match {case Row(a:Long,b:String,c:Double) => ...
¿Cómo pasar el parámetro -D o la variable de entorno al trabajo de Spark?
quiero cambiarConfiguración de Typesafe [https://github.com/typesafehub/config] de un trabajo de Spark en un entorno de desarrollo / producción. Me parece que la forma más fácil de lograr esto es pasar-Dconfig.resource=ENVNAME al trabajo Entonces ...
Adición de dos RDD [mllib.linalg.Vector]
Necesito agregar dos matrices que se almacenan en dos archivos. El contenido delatest1.txt ylatest2.txt tiene el siguiente str: 1 2 3 4 5 6 7 8 9Estoy leyendo esos archivos de la siguiente manera: scala> val rows = ...
Explicar la funcionalidad agregada en Spark
Estoy buscando una mejor explicación de la funcionalidad agregada que está disponible a través de spark en python. El ejemplo que tengo es el siguiente (usando pyspark de la versión Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), ...
la compilación scalac produce "el objeto apache no es miembro de la organización del paquete"
Mi código es: import org.apache.spark.SparkContextPuede ejecutarse en modo interactivo, pero cuando uso scalac para compilarlo, recibo el siguiente mensaje de error: object apache no es miembro de la organización del paquete Este parece ser el ...
Escribir un RDD en un csv
Tengo un RDD que tiene la forma org.apache.spark.rdd.RDD[(String, Array[String])]Quiero escribir esto en un archivo csv. Por favor, sugiérame cómo se puede hacer esto. Hacer myrdd.saveAsTextFile en da la salida de la siguiente ...
Insertar datos analíticos de Spark a Postgres
Tengo la base de datos Cassandra desde la cual analicé los datos usando SparkSQL a través de Apache Spark. Ahora quiero insertar esos datos analizados en PostgreSQL. ¿Hay alguna manera de lograr esto directamente, aparte de usar el controlador ...