Resultados de la búsqueda a petición "apache-spark"
Muestreo estratificado con pyspark
Tengo una chispaDataFrame que tiene una columna que tienemuchos cerosy muy pocas (solo el 0.01% de las unidades). Me gustaría tomar una submuestra aleatoria pero estratificada, para que mantenga la proporción de 1s a 0s en esa columna. ¿Es ...
Spark - scala: baraja RDD / divide RDD en dos partes aleatorias al azar
¿Cómo puedo tomar una matriz rdd de chispa y dividirla en dos rdds al azar para que cada rdd incluya alguna parte de los datos (digamos 97% y 3%)? Pensé en barajar la lista y luegoshuffledList.take((0.97*rddList.count).toInt) Pero, ¿cómo puedo ...
¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?
Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
crear un marco de datos de chispa a partir de un archivo json anidado en scala [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cómo acceder a las subentidades en el archivo JSON? [/questions/44814926/how-to-access-sub-entities-in-json-file] 1 respuestaTengo un archivo json que se ve así { "group" : {}, "lang" : [ [ 1, ...
Pyspark DataFrame UDF en columna de texto
Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...
Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *
Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
Ningún módulo llamado 'recurso' instalando Apache Spark en Windows
Estoy tratando de instalar Apache Spark para que se ejecute localmente en mi máquina Windows. He seguido todas las instrucciones ...
Hacia la limitación del gran RDD
Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...
Cambie la marca de tiempo al formato UTC en Pyspark
Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...
Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento
Marco de datos A (millones de registros) uno de la columna es create_date, modified_date Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización Enfoque actual: Select a.*,b.* from a join b on a.create_date between ...