Resultados de la búsqueda a petición "apache-spark"
Cómo cambiar el nombre del archivo de salida del marco de datos de chispa en AWS en spark SCALA
Estoy guardando mi salida de marco de datos de chispa como archivo csv en scala con particiones. Así es como hago eso enzepelín. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...
Desvincular en spark-sql / pyspark
Tengo un enunciado del problema en el que quiero desenredar la tabla en spark-sql / pyspark. He revisado la documentación y pude ver que solo hay soporte para pivote, pero hasta ahora no hay soporte para un-pivot. ¿Hay alguna manera de lograr ...
Escribir / almacenar marco de datos en archivo de texto
Estoy tratando de escribirdataframe atext archivo. Si un archivo contiene una sola columna, puedo escribir en un archivo de texto. Si el archivo contiene varias columnas, entonces me enfrento a un error La fuente de datos de texto admite solo ...
Número máximo de columnas que podemos tener en el marco de datos Spark Scala
Me gusta saber el número máximo de columnas que puedo tener en el marco de datos. ¿Hay alguna limitación para mantener el número de columnas en los marcos de datos? Gracias.
envío de solicitud de chispa múltiple en modo independiente
Tengo 4 aplicaciones de chispa (para encontrar el recuento de palabras del archivo de texto) que está escrito en 4 idiomas diferentes (R, Python, Java, Scala) ./wordcount.R ./wordcount.py ./wordcount.java ./wordcount.scalaspark funciona en modo ...
Filtro de condición múltiple en el marco de datos
¿Alguien puede explicarme por qué obtengo resultados diferentes para estas 2 expresiones? Estoy tratando de filtrar entre 2 fechas: df.filter("act_date <='2017-04-01'" and "act_date ...
sombreado del conjunto sbt para crear un tarro de grasa que se ejecute en la chispa
Estoy usando el ensamblaje sbt para crear un tarro gordo que puede funcionar con chispa. Tener dependencias degrpc-netty. La versión de guayaba en spark es más antigua que la requerida porgrpc-netty y me encuentro con este ...
Une dos tuberías Spark mllib juntas
Tengo dos separadosDataFrames que tienen varias etapas de procesamiento diferentes que usomllib transformadores en una tubería para manejar. Ahora quiero unir estas dos tuberías juntas, manteniendo las características (columnas) de ...
WARN cluster.YarnScheduler: el trabajo inicial no ha aceptado ningún recurso
Cualquier trabajo de chispa que ejecute fallará con el siguiente mensaje de error 17/06/16 11:10:43 WARN cluster.YarnScheduler: El trabajo inicial no ha aceptado ningún recurso; verifique la interfaz de usuario de su clúster para asegurarse de ...
¿Cómo desenrollar una matriz en DataFrame (de JSON)?
Cada registro en un RDD contiene un json. Estoy usando SQLContext para crear un DataFrame de Json como este: val signalsJsonRdd = sqlContext.jsonRDD(signalsJson)A continuación se muestra el esquema. datapayload es una matriz de elementos. Quiero ...