Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Comportamiento unpersist del conjunto de datos de Spark

Recientemente vi un comportamiento extraño de Spark. Tengo una tubería en mi aplicación en la que estoy manipulando un gran conjunto de datos: pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...

2 la respuesta

¿Cómo puedo obtener una posición de elemento en el RDD de Spark?

Soy nuevo en Apache Spark y sé que la estructura de datos central es RDD. Ahora estoy escribiendo algunas aplicaciones que requieren información de posición del elemento. Por ejemplo, después de convertir una ArrayList en un RDD (Java), para cada ...

5 la respuesta

Agregue un encabezado antes del archivo de texto al guardar en Spark

Tengo un código de chispa para procesar un archivo csv. Hace alguna transformación en ello. Ahora quiero guardar este RDD como un archivo csv y agregar un encabezado. Cada línea de este RDD ya está formateada correctamente. No estoy seguro de ...

1 la respuesta

Cómo usar el archivo de Databricks FileStore

Tratando de usar un.dat archivo para búsqueda de ip. El archivo está en el almacén de archivos Databricks del código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new ...

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

1 la respuesta

Cómo codificar valores de cadena en valores numéricos en Spark DataFrame

Tengo un DataFrame con dos columnas: df = Col1 Col2 aaa bbb ccc aaaQuiero codificar valores de cadena en valores numéricos. Logré hacerlo de esta manera: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 = new ...

1 la respuesta

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...

4 la respuesta

¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?

En los documentos de spark está claro cómo crear archivos de parquet a partir deRDD de sus propias clases de casos; (de los documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is ...

1 la respuesta

¿Cómo implementar la deserialización en el consumidor kafka usando scala?

Tengo la siguiente línea en el código de mi consumidor kafka. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap).map(_._2) ¿Cómo deserializar este flujo de "líneas" en el objeto original? La serialización se implementó en el ...

4 la respuesta

¿Cuáles son las transformaciones de Spark que causan un Shuffle?

Tengo problemas para encontrar en la documentación de Spark las operaciones que provocan una confusión y una operación que no lo hace. En esta lista, ¿cuáles causan una confusión y cuáles no? Mapa y filtro no. Sin embargo, no estoy seguro con ...