Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Muestreo estratificado con pyspark

Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...

2 la respuesta

Spark - scala: baraja RDD / divide RDD en dos partes aleatorias al azar

¿Cómo puedo tomar una matriz rdd de chispa y dividirla en dos rdds al azar para que cada rdd incluya alguna parte de los datos (digamos 97% y 3%)? Pensé en barajar la lista y luegoshuffledList.take((0.97*rddList.count).toInt) Pero, ¿cómo puedo ...

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

2 la respuesta

crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo acceder a las subentidades en el archivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respuestaTengo un archivo json que se ve así { "group" : {}, "lang" : [ [ 1, ...

3 la respuesta

Pyspark DataFrame UDF en columna de texto

Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...

0 la respuesta

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

3 la respuesta

Ningún módulo llamado 'recurso' instalando Apache Spark en Windows

Estoy tratando de instalar Apache Spark para que se ejecute localmente en mi máquina Windows. He seguido todas las instrucciones ...

1 la respuesta

Hacia la limitación del gran RDD

Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...

2 la respuesta

Cambie la marca de tiempo al formato UTC en Pyspark

Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...

2 la respuesta

Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento

Marco de datos A (millones de registros) uno de la columna es create_date, modified_date Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización Enfoque actual: Select a.*,b.* from a join b on a.create_date between ...