Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Cómo cambiar el nombre del archivo de salida del marco de datos de chispa en AWS en spark SCALA

Estoy guardando mi salida de marco de datos de chispa como archivo csv en scala con particiones. Así es como hago eso enzepelín. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 la respuesta

Desvincular en spark-sql / pyspark

Tengo un enunciado del problema en el que quiero desenredar la tabla en spark-sql / pyspark. He revisado la documentación y pude ver que solo hay soporte para pivote, pero hasta ahora no hay soporte para un-pivot. ¿Hay alguna manera de lograr ...

4 la respuesta

Escribir / almacenar marco de datos en archivo de texto

Estoy tratando de escribirdataframe atext archivo. Si un archivo contiene una sola columna, puedo escribir en un archivo de texto. Si el archivo contiene varias columnas, entonces me enfrento a un error La fuente de datos de texto admite solo ...

1 la respuesta

Número máximo de columnas que podemos tener en el marco de datos Spark Scala

Me gusta saber el número máximo de columnas que puedo tener en el marco de datos. ¿Hay alguna limitación para mantener el número de columnas en los marcos de datos? Gracias.

0 la respuesta

envío de solicitud de chispa múltiple en modo independiente

Tengo 4 aplicaciones de chispa (para encontrar el recuento de palabras del archivo de texto) que está escrito en 4 idiomas diferentes (R, Python, Java, Scala) ./wordcount.R ./wordcount.py ./wordcount.java ./wordcount.scalaspark funciona en modo ...

2 la respuesta

Filtro de condición múltiple en el marco de datos

¿Alguien puede explicarme por qué obtengo resultados diferentes para estas 2 expresiones? Estoy tratando de filtrar entre 2 fechas: df.filter("act_date <='2017-04-01'" and "act_date ...

1 la respuesta

sombreado del conjunto sbt para crear un tarro de grasa que se ejecute en la chispa

Estoy usando el ensamblaje sbt para crear un tarro gordo que puede funcionar con chispa. Tener dependencias degrpc-netty. La versión de guayaba en spark es más antigua que la requerida porgrpc-netty y me encuentro con este ...

1 la respuesta

Une dos tuberías Spark mllib juntas

Tengo dos separadosDataFrames que tienen varias etapas de procesamiento diferentes que usomllib transformadores en una tubería para manejar. Ahora quiero unir estas dos tuberías juntas, manteniendo las características (columnas) de ...

1 la respuesta

WARN cluster.YarnScheduler: el trabajo inicial no ha aceptado ningún recurso

Cualquier trabajo de chispa que ejecute fallará con el siguiente mensaje de error 17/06/16 11:10:43 WARN cluster.YarnScheduler: El trabajo inicial no ha aceptado ningún recurso; verifique la interfaz de usuario de su clúster para asegurarse de ...

1 la respuesta

¿Cómo desenrollar una matriz en DataFrame (de JSON)?

Cada registro en un RDD contiene un json. Estoy usando SQLContext para crear un DataFrame de Json como este: val signalsJsonRdd = sqlContext.jsonRDD(signalsJson)A continuación se muestra el esquema. datapayload es una matriz de elementos. Quiero ...