Resultados de la búsqueda a petición "apache-spark"

Tengo dos marcos de datos A y B. A es grande (100 G) y B es relativamente pequeño (100 M). El número de partición de A es 8 y el número de partición de B es 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")La velocidad ...

java json apache-spark-sql

1 la respuesta

Retenga claves con valores nulos mientras escribe JSON en spark

Estoy tratando de escribir un archivo JSON usando spark. Hay algunas claves que tienennull como valor Estos se muestran muy bien en elDataSet, pero cuando escribo el archivo, se caen las claves. ¿Cómo me aseguro de que se conserven? código para ...

pyspark metadata apache-spark-ml

1 la respuesta

¿Cómo cambiar los metadatos de la columna en pyspark?

¿Cómo puedo actualizar los metadatos de columna en PySpark? Tengo valores de metadatos que corresponden a la codificación nominal de características categóricas (cadenas) y me gustaría decodificarlos de forma automática. Escribir los metadatos en ...

approximation

2 la respuesta

En chispa, cómo estimar rápidamente la cantidad de elementos en un marco de datos

En chispa, ¿hay una manera rápida de obtener un recuento aproximado del número de elementos en un conjunto de datos? Es decir, más rápido queDataset.count() hace. Tal vez podríamos calcular esta información a partir del número de particiones del ...

sql dataframe apache-spark-sql

2 la respuesta

Spark Dataframe anidado caso cuando declaración

Necesito implementar la lógica SQL a continuación en SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Mi entradaDataFrame es como a continuación: val ...

java apache-spark-sql parquet

1 la respuesta

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Tener algunos problemas con la forma en que Spark está interpretando columnas para parquet. Tengo una fuente de Oracle con esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

pyspark apache-spark-sql spark-dataframe pyspark-sql

1 la respuesta

Problemas con la función redonda de Pyspark

Tengo algunos problemas para que funcione la función de redondeo en pyspar, k: tengo el siguiente bloque de código, donde estoy tratando de redondear elnew_bid columna a 2 decimales y cambie el nombre de la columna comobid luego - ...

python pyspark apache-spark-ml

1 la respuesta

Encajar un marco de datos en randomForest pyspark

tengo unDataFrame que se parece a esto: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... ...

r shiny sparklyr

1 la respuesta

R Shiny and Spark: ¿cómo liberar recursos de Spark?

Digamos que tenemos unAplicación brillantecual esdesplegado en un servidor brillante. Esperamos que la aplicación sea utilizada por varios usuarios a través de su navegador web, como de costumbre. La aplicación brillanteserver.R incluye ...

pyspark spark-dataframe cosine-similarity

1 la respuesta

Spark distancia coseno entre filas usando Dataframe

Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...

Página 57 de 165

55 565758 59

Resultados de la búsqueda a petición "apache-spark"

Cómo mejorar la transmisión Velocidad de unión con una condición intermedia en Spark

Retenga claves con valores nulos mientras escribe JSON en spark

¿Cómo cambiar los metadatos de la columna en pyspark?

Etiquetas Populares

En chispa, cómo estimar rápidamente la cantidad de elementos en un marco de datos

Spark Dataframe anidado caso cuando declaración

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Problemas con la función redonda de Pyspark

Encajar un marco de datos en randomForest pyspark

R Shiny and Spark: ¿cómo liberar recursos de Spark?

Spark distancia coseno entre filas usando Dataframe

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares