Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo transformar flujos estructurados con P, ySpark?

Parece que esto debería ser obvio, pero al revisar los documentos y ejemplos, no estoy seguro de poder encontrar una manera de tomar una secuencia estructurada y transformarla usando PySpark. Por ejemplo from pyspark.sql import SparkSession ...

1 la respuesta

¿por qué no funciona spark.executor.instances? [duplicar

Esta pregunta ya tiene una respuesta aquí: Apache Spark: establecer instancias de ejecutor no cambia los ejecutores [/questions/29940711/apache-spark-setting-executor-instances-does-not-change-the-executors] 4 respuestas Estoy usando 40 ...

2 la respuesta

Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos

Estamos ejecutando spark 2.3.0 enAWW EMR. El seguimientoDataFrame "df "no está vacío y tiene un tamaño modesto: scala> df.count res0: Long = 4067 El siguiente código funciona bien para escribirdf ahdfs: scala> val hdf = ...

1 la respuesta

¿Cómo imprimir la ruta / reglas de decisión utilizadas para predecir la muestra de una fila específica en PySpark?

¿Cómo imprimir la ruta de decisión de una muestra específica en un Spark DataFrame? Spark Version: '2.3.1' El siguiente código imprime la ruta de decisión de todo el modelo, ¿cómo hacer que imprima una ruta de decisión de una ...

1 la respuesta

StandardScaler en Spark no funciona como se esperaba

Cualquier idea de por qué spark haría esto paraStandardScaler? Según la definición deStandardScaler: El StandardScaler estandariza un conjunto de características para tener una media cero y una desviación estándar de 1. La bandera withStd ...

2 la respuesta

usando declaración preparada varias veces, dando una advertencia de Cassandra Querying Reducing Performance

Estoy obteniendo datos de algún lugar e insertándolos encassandra diariamente, entonces necesito recuperar los datos decassandra durante toda la semana y procese e inserte el resultado nuevamente encassandra. tengo muchos registros, cada ...

2 la respuesta

Diferentes valores predeterminados persisten para Rdd y Dataset

Intenté encontrar una buena respuesta por qué la persistencia predeterminada para RDD es MEMORY_ONLY y para el conjunto de datos MEMORY_AND_DISK. Pero no pude encontrarlo. Me pregunto si alguno de ustedes conoce una buena razón detrás. Gracia

1 la respuesta

Esquema ambiguo en Spark Scala

Esquema |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...

0 la respuesta

¿Cómo se establece el número de tareas y particiones cuando se usa MemoryStream?

Estoy tratando de entender un comportamiento extraño que observé en mi aplicación de transmisión de estructura Spark que se ejecuta enlocal[*] modo Tengo 8 núcleos en mis máquinas. Si bien la mayoría de mis lotes tienen 8 particiones, de vez ...

1 la respuesta

¿Cómo aplanar los datos de diferentes tipos de datos utilizando el paquete Sparklyr?

Introducció l código @R se escribe utilizando el paquete Sparklyr para crear un esquema de base de datos. @ [Se proporciona código reproducible y base de datos] Resultado existente root |-- contributors : string |-- created_at : string |-- ...