Resultados de la búsqueda a petición "apache-spark"
Comportamiento unpersist del conjunto de datos de Spark
Recientemente vi un comportamiento extraño de Spark. Tengo una tubería en mi aplicación en la que estoy manipulando un gran conjunto de datos: pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...
¿Cómo puedo obtener una posición de elemento en el RDD de Spark?
Soy nuevo en Apache Spark y sé que la estructura de datos central es RDD. Ahora estoy escribiendo algunas aplicaciones que requieren información de posición del elemento. Por ejemplo, después de convertir una ArrayList en un RDD (Java), para cada ...
Agregue un encabezado antes del archivo de texto al guardar en Spark
Tengo un código de chispa para procesar un archivo csv. Hace alguna transformación en ello. Ahora quiero guardar este RDD como un archivo csv y agregar un encabezado. Cada línea de este RDD ya está formateada correctamente. No estoy seguro de ...
Cómo usar el archivo de Databricks FileStore
Tratando de usar un.dat archivo para búsqueda de ip. El archivo está en el almacén de archivos Databricks del código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new ...
Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida
Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...
Cómo codificar valores de cadena en valores numéricos en Spark DataFrame
Tengo un DataFrame con dos columnas: df = Col1 Col2 aaa bbb ccc aaaQuiero codificar valores de cadena en valores numéricos. Logré hacerlo de esta manera: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 = new ...
Calcular eficientemente los totales de fila de un Spark DF ancho
Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...
¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?
En los documentos de spark está claro cómo crear archivos de parquet a partir deRDD de sus propias clases de casos; (de los documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is ...
¿Cómo implementar la deserialización en el consumidor kafka usando scala?
Tengo la siguiente línea en el código de mi consumidor kafka. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap).map(_._2) ¿Cómo deserializar este flujo de "líneas" en el objeto original? La serialización se implementó en el ...
¿Cuáles son las transformaciones de Spark que causan un Shuffle?
Tengo problemas para encontrar en la documentación de Spark las operaciones que provocan una confusión y una operación que no lo hace. En esta lista, ¿cuáles causan una confusión y cuáles no? Mapa y filtro no. Sin embargo, no estoy seguro con ...