Resultados de la búsqueda a petición "apache-spark"

Recientemente vi un comportamiento extraño de Spark. Tengo una tubería en mi aplicación en la que estoy manipulando un gran conjunto de datos: pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...

rdd position

2 la respuesta

¿Cómo puedo obtener una posición de elemento en el RDD de Spark?

Soy nuevo en Apache Spark y sé que la estructura de datos central es RDD. Ahora estoy escribiendo algunas aplicaciones que requieren información de posición del elemento. Por ejemplo, después de convertir una ArrayList en un RDD (Java), para cada ...

5 la respuesta

Agregue un encabezado antes del archivo de texto al guardar en Spark

Tengo un código de chispa para procesar un archivo csv. Hace alguna transformación en ello. Ahora quiero guardar este RDD como un archivo csv y agregar un encabezado. Cada línea de este RDD ya está formateada correctamente. No estoy seguro de ...

scala databricks

1 la respuesta

Cómo usar el archivo de Databricks FileStore

Tratando de usar un.dat archivo para búsqueda de ip. El archivo está en el almacén de archivos Databricks del código Scala: def getCountryCode(ip: String) { val filePath = "FileStore/maxmind/GeoIPCountry.dat" val ipLookups = new ...

scala bigdata

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

scala apache-spark-mllib

1 la respuesta

Cómo codificar valores de cadena en valores numéricos en Spark DataFrame

Tengo un DataFrame con dos columnas: df = Col1 Col2 aaa bbb ccc aaaQuiero codificar valores de cadena en valores numéricos. Logré hacerlo de esta manera: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 = new ...

r dplyr apache-spark-sql sparklyr

1 la respuesta

Calcular eficientemente los totales de fila de un Spark DF ancho

Tengo un amplio marco de datos de chispa de unos pocos miles de columnas por aproximadamente un millón de filas, para lo cual me gustaría calcular los totales de las filas. Mi solución hasta ahora está por debajo. Solía:dplyr - suma de múltiples ...

parquet sql

4 la respuesta

¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?

En los documentos de spark está claro cómo crear archivos de parquet a partir deRDD de sus propias clases de casos; (de los documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is ...

deserialization scala apache-kafka

1 la respuesta

¿Cómo implementar la deserialización en el consumidor kafka usando scala?

Tengo la siguiente línea en el código de mi consumidor kafka. val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap).map(_._2) ¿Cómo deserializar este flujo de "líneas" en el objeto original? La serialización se implementó en el ...

java python scala

4 la respuesta

¿Cuáles son las transformaciones de Spark que causan un Shuffle?

Tengo problemas para encontrar en la documentación de Spark las operaciones que provocan una confusión y una operación que no lo hace. En esta lista, ¿cuáles causan una confusión y cuáles no? Mapa y filtro no. Sin embargo, no estoy seguro con ...

Página 82 de 165

80 818283 84

Resultados de la búsqueda a petición "apache-spark"

Comportamiento unpersist del conjunto de datos de Spark

¿Cómo puedo obtener una posición de elemento en el RDD de Spark?

Agregue un encabezado antes del archivo de texto al guardar en Spark

Etiquetas Populares

Cómo usar el archivo de Databricks FileStore

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Cómo codificar valores de cadena en valores numéricos en Spark DataFrame

Calcular eficientemente los totales de fila de un Spark DF ancho

¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?

¿Cómo implementar la deserialización en el consumidor kafka usando scala?

¿Cuáles son las transformaciones de Spark que causan un Shuffle?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares