Resultados de la búsqueda a petición "pyspark"
¿Cómo divido un RDD en dos o más RDD?
Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto esScala Spark: ¿División dividida en varios RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que sigue ...
Cómo restaurar RDD de pares (clave, valor) después de que se haya almacenado / leído desde un archivo de texto
Guardé mi RDD de pares (clave, valor) en un archivo de texto usando saveAsTextFile. Después de volver a leer el archivo de texto usandosc.textFile("filename.txt") comando, terminé con cadenas, en lugar de pares (clave, valor). Mis claves solían ...
¿Cómo usar Scala y Python en un mismo proyecto Spark?
¿Es eso posible canalizar?Spark RDDa Python? Porque necesito una biblioteca de Python para hacer algunos cálculos en mis datos, pero mi proyecto principal de Spark se basa en Scala. ¿Hay alguna manera de mezclarlos a ambos o dejar que Python ...
Agregue una columna vacía a Spark DataFrame
Como se menciona enmuchos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] otros lugares [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] en la ...
Partir RDD en tuplas de longitud n
Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir era factible. Tengo un RDD de la forma [m1m2m3m4m5m6.......metron$8Tengo un RDD de la forma [m9m10m11m12m13m14$n-2mn-1mn)]. Las tuplas internas ...
¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?
Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...
Spark usando imágenes de lectura PySpark
Hola, tengo muchas imágenes (millones más bajos) en las que necesito clasificar. Estoy usando Spark y logré leer todas las imágenes en el formato de(filename1, content1), (filename2, content2) ... en un gran RDD. images = ...
La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark
Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...
Spark: ¿Cómo mapear Python con Scala o Java Funciones definidas por el usuario?
Digamos, por ejemplo, que mi equipo ha elegido Python como el lenguaje de referencia para desarrollar con Spark. Pero más tarde, por razones de rendimiento, nos gustaría desarrollar bibliotecas específicas de Scala o Java específicas para ...
Funciones de ventana de chispa - rango entre fechas
Estoy teniendo un Spark SQLDataFrame con datos y lo que intento obtener es todas las filas que preceden a la fila actual en un rango de fechas dado. Entonces, por ejemplo, quiero tener todas las filas de 7 días anteriores a la fila dada. Descubrí ...