Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Tengo dos marcos de datos A y B. A es grande (100 G) y B es relativamente pequeño (100 M). El número de partición de A es 8 y el número de partición de B es 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")La velocidad ...

1 la respuesta

Retenga claves con valores nulos mientras escribe JSON en spark

Estoy tratando de escribir un archivo JSON usando spark. Hay algunas claves que tienennull como valor Estos se muestran muy bien en elDataSet, pero cuando escribo el archivo, se caen las claves. ¿Cómo me aseguro de que se conserven? código para ...

1 la respuesta

¿Cómo cambiar los metadatos de la columna en pyspark?

¿Cómo puedo actualizar los metadatos de columna en PySpark? Tengo valores de metadatos que corresponden a la codificación nominal de características categóricas (cadenas) y me gustaría decodificarlos de forma automática. Escribir los metadatos en ...

2 la respuesta

En chispa, cómo estimar rápidamente la cantidad de elementos en un marco de datos

En chispa, ¿hay una manera rápida de obtener un recuento aproximado del número de elementos en un conjunto de datos? Es decir, más rápido queDataset.count() hace. Tal vez podríamos calcular esta información a partir del número de particiones del ...

2 la respuesta

Spark Dataframe anidado caso cuando declaración

Necesito implementar la lógica SQL a continuación en SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Mi entradaDataFrame es como a continuación: val ...

1 la respuesta

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Tener algunos problemas con la forma en que Spark está interpretando columnas para parquet. Tengo una fuente de Oracle con esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

1 la respuesta

Encajar un marco de datos en randomForest pyspark

tengo unDataFrame que se parece a esto: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... ...

1 la respuesta

R Shiny and Spark: ¿cómo liberar recursos de Spark?

Digamos que tenemos unAplicación brillantecual esdesplegado en un servidor brillante. Esperamos que la aplicación sea utilizada por varios usuarios a través de su navegador web, como de costumbre. La aplicación brillanteserver.R incluye ...

1 la respuesta

Spark distancia coseno entre filas usando Dataframe

Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...