Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]

Esta pregunta es un duplicado exacto de: Importar archivo de ancho fijo de Park Gran cantidad de columnas que provocan un alto tiempo de ...

1 la respuesta

agregándose con una condición en groupby spark dataframe

Tengo un marco de datos id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 ...

3 la respuesta

¿Cómo optimizar el particionamiento al migrar datos desde la fuente JDBC?

Estoy tratando de mover datos de una tabla en la tabla PostgreSQL a una tabla Hive en HDFS. Para hacer eso, se me ocurrió el siguiente código: val conf = ...

1 la respuesta

escribiendo datos en cassandra a intervalos de ceratina

Estoy haciendo algún tipo de procesamiento en chispa y quiero implementar una funcionalidad que, independientemente del procesamiento que se esté ejecutando, quiero programar un temporizador (en un intervalo de 5 minutos) que persista algunos ...

1 la respuesta

Comprender el cierre en chispa

En los modos de clúster, cómo escribir una función de cierref para permitir que cada trabajador acceda a la copia de la variableN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...

1 la respuesta

spark data frame nivel de fila y columna de operación usando scala

Marco de datos original 0.2 0.3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...

1 la respuesta

Spark DataFrame particionador es Ninguno

[Nuevo en Spark] Después de crear un DataFrame, estoy tratando de particionarlo en base a una columna en el DataFrame. Cuando reviso el particionador usandodata_frame.rdd.partitioner Yo obtengoNingun como salida. Particionamiento usando ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

2 la respuesta

obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark

Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...

2 la respuesta

¿Producto acumulativo en Spark?

Intento implementar un producto acumulativo en Spark scala pero realmente no sé cómo hacerlo. Tengo el siguiente marco de datos: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...