Resultados de la búsqueda a petición "apache-spark"
Foreach perezoso en un Spark RDD
Tengo un gran RDD de cadenas (obtenido a través de una unión de variossc.textFile(...)). Ahora quiero buscar una cadena dada en ese RDD, y quiero que la búsqueda se detenga cuando se encuentre una coincidencia "suficientemente buena". Podría ...
Prueba de integración fallida para Apache Spark Streaming
He estado tratando de localizar un problema con algunas pruebas de unidad / integración que he estado escribiendo para un proyecto Apache Spark. Cuando uso Spark 1.1.1 mi prueba pasó. Cuando intenté actualizar a 1.4.0 (también probé 1.4.1) la ...
Vector escaso vs Vector denso
Como crearSparseVector y densas representaciones vectoriales Si elDenseVector es: denseV = np.array([0., 3., 0., 4.])¿Cuál será la representación del Vector disperso?
PySpark: mapear un SchemaRDD en un SchemaRDD
Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...
¿Existe una función de transformación RDD que observe los elementos vecinos?
¿Alguien sabe si hay una manera durante una transformación para mirar los elementos vecinos en un RDD ordenado? Sé que puedo recopilar y luego realizar una operación como la que se muestra en el ejemplo a continuación, sin embargo, de alguna ...
Cómo agregar una nueva columna Struct a un DataFrame
Actualmente estoy tratando de extraer una base de datos de MongoDB y usar Spark para ingerir ElasticSearch congeo_points. La base de datos de Mongo tiene valores de latitud y longitud, pero ElasticSearch requiere que se incluyan en elgeo_point ...
Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas
Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
¿Qué es el retraso del planificador en la línea de tiempo del evento de la interfaz de usuario de spark?
Estoy usando el entorno YARN para ejecutar programas spark, con la opción--master yarn-cluster. Cuando abro el maestro de aplicaciones de una aplicación de chispa, vi muchasScheduler Delay en un escenario Algunos de ellos son incluso más de ...
pyspark selecciona un subconjunto de archivos usando regex / glob de s3
Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...
Apache Spark toma de 5 a 6 minutos para un conteo simple de 1 billón de filas de Cassandra
Estoy usando el conector Spark Cassandra. Se requieren de 5 a 6 minutos para obtener datos de la tabla Cassandra. En Spark he visto muchas tareas y ejecutor en el registro. ¡La razón podría ser que Spark dividió el proceso en muchas tareas! A ...