Resultados de la búsqueda a petición "apache-spark"
Cómo generar archivos de parquet utilizando Java puro (incluidos los tipos de fecha y decimales) y cargarlos en S3 [Windows] (sin HDFS)
Recientemente tuve un requisito en el que necesitaba generar archivos de Parquet que pudieran ser leídos por Apache Spark utilizando solo Java (sin instalaciones de software adicionales como: Apache Drill, Hive, Spark, etc.). Los archivos debían ...
¿Cómo obtener la salida del receptor de transmisión de consola en Zeppelin?
Estoy luchando por conseguir elconsole fregadero trabajando conTransmisión estructurada de PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] cuando se ejecuta desde Zeppelin. Básicamente, no veo ningún ...
Causado por: java.lang.NullPointerException en org.apache.spark.sql.Dataset
A continuación proporciono mi código. I iterar sobre el DataFrameprodRows y para cadaproduct_PK Encuentro una sublista coincidente de product_PKs deprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = ...
Spark - Tarea no serializable: ¿Cómo trabajar con cierres de mapas complejos que llaman a clases / objetos externos?
Echa un vistazo a esta pregunta:Scala + Spark - Tarea no serializable: java.io.NotSerializableExceptionon. Al llamar a la función fuera del cierre solo en clases, no en ...
Importar pyspark en Python Shell
Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a preguntarla aquí, ya que tengo el mismo problema. ...
ejecutando script pyspark en EMR
Actualmente automatizo mis scripts Apache Spark Pyspark usando clústeres de EC2s usando el directorio Sparks preconfigurado ./ec2. Para fines de automatización y programación, me gustaría usar el módulo Boto EMR para enviar scripts ...
Spark Context Textfile: carga múltiples archivos
Necesito procesar múltiples archivos dispersos en varios directorios. Me gustaría cargar todo esto en un solo RDD y luego realizar un mapa / reducirlo. Veo que SparkContext es capaz de cargar múltiples archivos desde un solo directorio usando ...
error múltiple de SparkContexts en el tutorial
Estoy intentando ejecutar el tutorial muy básico de Spark + Python pyspark - ver http://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Cuando intento inicializar un nuevo SparkContext, from ...
¿Cómo ejecuto Graphx con Python / pyspark?
Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales pyspark y los tutoriales GraphX (Java) perfectamente. Presumiblemente, dado que GraphX es parte de ...
Cómo escribir a CSV en Spark
Estoy tratando de encontrar una manera efectiva de guardar el resultado de mi Spark Job como un archivo csv. Estoy usando Spark con Hadoop y hasta ahora todos mis archivos se guardan comopart-00000. ¿Alguna idea de cómo hacer que mi chispa ...