Resultados de la búsqueda a petición "apache-spark"
Apache Spark no elimina directorios temporales
Una vez que se completa un programa spark, quedan 3 directorios temporales en el directorio temporal. Los nombres de los directorios son así: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Los directorios están vacíos. Y cuando el programa Spark se ...
Cassandra almacenamiento interno
Estoy tratando de entender qué sucede exactamente internamente en el nivel del motor de almacenamiento cuando se inserta una fila (columnas) en una tabla de estilo CQL. CREATE TABLE log_date ( userid bigint, time timeuuid, category text, ...
pyspark - Agrupación y cálculo de datos
Tengo el siguiente archivo ...
El método más simple para la lematización de texto en Scala y Spark
Quiero usar la lematización en un archivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...
Reformar / pivotar datos en Spark RDD y / o Spark DataFrames
Tengo algunos datos en el siguiente formato (RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Diferencia entre org.apache.spark.ml.classification y org.apache.spark.mllib.classification
Estoy escribiendo una aplicación de chispa y me gustaría usar algoritmos en MLlib. En el documento API encontré dos clases diferentes para el mismo algoritmo. Por ejemplo, hay una LogisticRegression en org.apache.spark.ml.classification ...
¿Cómo pivotar DataFrame?
Estoy empezando a usar Spark DataFrames y necesito poder pivotar los datos para crear múltiples columnas de 1 columna con múltiples filas. Existe una funcionalidad integrada para eso en Scalding y creo en Pandas en Python, pero no puedo encontrar ...
Crear nueva columna con función en Spark Dataframe
Estoy tratando de descubrir la nueva API de marco de datos en Spark. Parece un buen paso adelante pero tiene problemas para hacer algo que debería ser bastante simple. Tengo un marco de datos con 2 columnas, "ID" y "Cantidad". Como ...
¿Cómo ejecutar múltiples trabajos en un Sparkcontext desde hilos separados en PySpark?
Se entiende por la documentación de Spark sobreProgramación dentro de una aplicación [http://spark.apache.org/docs/latest/job-scheduling.html]: Dentro de una aplicación Spark dada (instancia de SparkContext), se pueden ejecutar varios trabajos ...
Calcular la duración restando dos columnas de fecha y hora en formato de cadena
Tengo un Spark Dataframe que consta de una serie de fechas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...