Resultados de la búsqueda a petición "apache-spark"
¿Cómo transformar flujos estructurados con P, ySpark?
Parece que esto debería ser obvio, pero al revisar los documentos y ejemplos, no estoy seguro de poder encontrar una manera de tomar una secuencia estructurada y transformarla usando PySpark. Por ejemplo from pyspark.sql import SparkSession ...
¿por qué no funciona spark.executor.instances? [duplicar
Esta pregunta ya tiene una respuesta aquí: Apache Spark: establecer instancias de ejecutor no cambia los ejecutores [/questions/29940711/apache-spark-setting-executor-instances-does-not-change-the-executors] 4 respuestas Estoy usando 40 ...
Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos
Estamos ejecutando spark 2.3.0 enAWW EMR. El seguimientoDataFrame "df "no está vacío y tiene un tamaño modesto: scala> df.count res0: Long = 4067 El siguiente código funciona bien para escribirdf ahdfs: scala> val hdf = ...
¿Cómo imprimir la ruta / reglas de decisión utilizadas para predecir la muestra de una fila específica en PySpark?
¿Cómo imprimir la ruta de decisión de una muestra específica en un Spark DataFrame? Spark Version: '2.3.1' El siguiente código imprime la ruta de decisión de todo el modelo, ¿cómo hacer que imprima una ruta de decisión de una ...
StandardScaler en Spark no funciona como se esperaba
Cualquier idea de por qué spark haría esto paraStandardScaler? Según la definición deStandardScaler: El StandardScaler estandariza un conjunto de características para tener una media cero y una desviación estándar de 1. La bandera withStd ...
usando declaración preparada varias veces, dando una advertencia de Cassandra Querying Reducing Performance
Estoy obteniendo datos de algún lugar e insertándolos encassandra diariamente, entonces necesito recuperar los datos decassandra durante toda la semana y procese e inserte el resultado nuevamente encassandra. tengo muchos registros, cada ...
Diferentes valores predeterminados persisten para Rdd y Dataset
Intenté encontrar una buena respuesta por qué la persistencia predeterminada para RDD es MEMORY_ONLY y para el conjunto de datos MEMORY_AND_DISK. Pero no pude encontrarlo. Me pregunto si alguno de ustedes conoce una buena razón detrás. Gracia
Esquema ambiguo en Spark Scala
Esquema |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...
¿Cómo se establece el número de tareas y particiones cuando se usa MemoryStream?
Estoy tratando de entender un comportamiento extraño que observé en mi aplicación de transmisión de estructura Spark que se ejecuta enlocal[*] modo Tengo 8 núcleos en mis máquinas. Si bien la mayoría de mis lotes tienen 8 particiones, de vez ...
¿Cómo aplanar los datos de diferentes tipos de datos utilizando el paquete Sparklyr?
Introducció l código @R se escribe utilizando el paquete Sparklyr para crear un esquema de base de datos. @ [Se proporciona código reproducible y base de datos] Resultado existente root |-- contributors : string |-- created_at : string |-- ...