Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Foreach perezoso en un Spark RDD

Tengo un gran RDD de cadenas (obtenido a través de una unión de variossc.textFile(...)). Ahora quiero buscar una cadena dada en ese RDD, y quiero que la búsqueda se detenga cuando se encuentre una coincidencia "suficientemente buena". Podría ...

1 la respuesta

Prueba de integración fallida para Apache Spark Streaming

He estado tratando de localizar un problema con algunas pruebas de unidad / integración que he estado escribiendo para un proyecto Apache Spark. Cuando uso Spark 1.1.1 mi prueba pasó. Cuando intenté actualizar a 1.4.0 (también probé 1.4.1) la ...

2 la respuesta

Vector escaso vs Vector denso

Como crearSparseVector y densas representaciones vectoriales Si elDenseVector es: denseV = np.array([0., 3., 0., 4.])¿Cuál será la representación del Vector disperso?

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

1 la respuesta

¿Existe una función de transformación RDD que observe los elementos vecinos?

¿Alguien sabe si hay una manera durante una transformación para mirar los elementos vecinos en un RDD ordenado? Sé que puedo recopilar y luego realizar una operación como la que se muestra en el ejemplo a continuación, sin embargo, de alguna ...

2 la respuesta

Cómo agregar una nueva columna Struct a un DataFrame

Actualmente estoy tratando de extraer una base de datos de MongoDB y usar Spark para ingerir ElasticSearch congeo_points. La base de datos de Mongo tiene valores de latitud y longitud, pero ElasticSearch requiere que se incluyan en elgeo_point ...

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

2 la respuesta

¿Qué es el retraso del planificador en la línea de tiempo del evento de la interfaz de usuario de spark?

Estoy usando el entorno YARN para ejecutar programas spark, con la opción--master yarn-cluster. Cuando abro el maestro de aplicaciones de una aplicación de chispa, vi muchasScheduler Delay en un escenario Algunos de ellos son incluso más de ...

1 la respuesta

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...

2 la respuesta

Apache Spark toma de 5 a 6 minutos para un conteo simple de 1 billón de filas de Cassandra

Estoy usando el conector Spark Cassandra. Se requieren de 5 a 6 minutos para obtener datos de la tabla Cassandra. En Spark he visto muchas tareas y ejecutor en el registro. ¡La razón podría ser que Spark dividió el proceso en muchas tareas! A ...