Resultados de la búsqueda a petición "apache-spark"
l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]
Esta pregunta es un duplicado exacto de: Importar archivo de ancho fijo de Park Gran cantidad de columnas que provocan un alto tiempo de ...
agregándose con una condición en groupby spark dataframe
Tengo un marco de datos id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 ...
¿Cómo optimizar el particionamiento al migrar datos desde la fuente JDBC?
Estoy tratando de mover datos de una tabla en la tabla PostgreSQL a una tabla Hive en HDFS. Para hacer eso, se me ocurrió el siguiente código: val conf = ...
escribiendo datos en cassandra a intervalos de ceratina
Estoy haciendo algún tipo de procesamiento en chispa y quiero implementar una funcionalidad que, independientemente del procesamiento que se esté ejecutando, quiero programar un temporizador (en un intervalo de 5 minutos) que persista algunos ...
Comprender el cierre en chispa
En los modos de clúster, cómo escribir una función de cierref para permitir que cada trabajador acceda a la copia de la variableN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...
spark data frame nivel de fila y columna de operación usando scala
Marco de datos original 0.2 0.3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...
Spark DataFrame particionador es Ninguno
[Nuevo en Spark] Después de crear un DataFrame, estoy tratando de particionarlo en base a una columna en el DataFrame. Cuando reviso el particionador usandodata_frame.rdd.partitioner Yo obtengoNingun como salida. Particionamiento usando ...
¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?
He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...
obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark
Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...
¿Producto acumulativo en Spark?
Intento implementar un producto acumulativo en Spark scala pero realmente no sé cómo hacerlo. Tengo el siguiente marco de datos: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...