Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

¿Cómo divido un RDD en dos o más RDD?

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto esScala Spark: ¿División dividida en varios RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que sigue ...

1 la respuesta

Codificar y ensamblar múltiples funciones en PySpark

Tengo una clase de Python que estoy usando para cargar y procesar algunos datos en Spark. Entre varias cosas que debo hacer, estoy generando una lista de variables ficticias derivadas de varias columnas en un marco de datos de Spark. Mi problema ...

3 la respuesta

Spark extrayendo valores de una fila

Tengo el siguiente marco de datos val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""")Estoy tratando de convertir las ...

3 la respuesta

¿Cómo usar Scala y Python en un mismo proyecto Spark?

¿Es eso posible canalizar?Spark RDDa Python? Porque necesito una biblioteca de Python para hacer algunos cálculos en mis datos, pero mi proyecto principal de Spark se basa en Scala. ¿Hay alguna manera de mezclarlos a ambos o dejar que Python ...

1 la respuesta

Spark Streaming en EC2: Excepción en el hilo "main" java.lang.ExceptionInInitializerError

Estoy tratando de ejecutar spark-submit en un archivo jar que creé. Cuando lo ejecuto localmente en mi máquina, funciona correctamente, pero cuando se implementa en Amazon EC2, devuelve el siguiente error. root@ip-172-31-47-217 bin]$ ...

2 la respuesta

Cómo restaurar RDD de pares (clave, valor) después de que se haya almacenado / leído desde un archivo de texto

Guardé mi RDD de pares (clave, valor) en un archivo de texto usando saveAsTextFile. Después de volver a leer el archivo de texto usandosc.textFile("filename.txt") comando, terminé con cadenas, en lugar de pares (clave, valor). Mis claves solían ...

2 la respuesta

Cómo expresar una columna cuyo nombre contiene espacios en Spark SQL

Hemos intentado ajustar el nombre de la columna entre paréntesis[column name], comillas simples y dobles, y backticks, ninguno de ellos funciona. ¿Spark SQL admite columnas cuyo nombre contiene espacios? ¡Gracias!

3 la respuesta

Convirtiendo RDD [org.apache.spark.sql.Row] a RDD [org.apache.spark.mllib.linalg.Vector]

Soy relativamente nuevo en Spark y Scala. Estoy comenzando con el siguiente marco de datos (columna única hecha de un denso vector de dobles): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

2 la respuesta

Agregue una columna vacía a Spark DataFrame

Como se menciona enmuchos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] otros lugares [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] en la ...

3 la respuesta

Partir RDD en tuplas de longitud n

Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir era factible. Tengo un RDD de la forma [m1m2m3m4m5m6.......metron$8Tengo un RDD de la forma [m9m10m11m12m13m14$n-2mn-1mn)]. Las tuplas internas ...