Resultados de la búsqueda a petición "apache-spark"

Tengo un gran RDD de cadenas (obtenido a través de una unión de variossc.textFile(...)). Ahora quiero buscar una cadena dada en ese RDD, y quiero que la búsqueda se detenga cuando se encuentre una coincidencia "suficientemente buena". Podría ...

powermock unit-testing integration-testing java

1 la respuesta

Prueba de integración fallida para Apache Spark Streaming

He estado tratando de localizar un problema con algunas pruebas de unidad / integración que he estado escribiendo para un proyecto Apache Spark. Cuando uso Spark 1.1.1 mi prueba pasó. Cuando intenté actualizar a 1.4.0 (también probé 1.4.1) la ...

apache-spark-mllib

2 la respuesta

Vector escaso vs Vector denso

Como crearSparseVector y densas representaciones vectoriales Si elDenseVector es: denseV = np.array([0., 3., 0., 4.])¿Cuál será la representación del Vector disperso?

hive apache-spark-sql pyspark rdd

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

java

1 la respuesta

¿Existe una función de transformación RDD que observe los elementos vecinos?

¿Alguien sabe si hay una manera durante una transformación para mirar los elementos vecinos en un RDD ordenado? Sé que puedo recopilar y luego realizar una operación como la que se muestra en el ejemplo a continuación, sin embargo, de alguna ...

apache-spark-sql elasticsearch etl scala

2 la respuesta

Cómo agregar una nueva columna Struct a un DataFrame

Actualmente estoy tratando de extraer una base de datos de MongoDB y usar Spark para ingerir ElasticSearch congeo_points. La base de datos de Mongo tiene valores de latitud y longitud, pero ElasticSearch requiere que se incluyan en elgeo_point ...

sparkr parquet spark-dataframe r

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

2 la respuesta

¿Qué es el retraso del planificador en la línea de tiempo del evento de la interfaz de usuario de spark?

Estoy usando el entorno YARN para ejecutar programas spark, con la opción--master yarn-cluster. Cuando abro el maestro de aplicaciones de una aplicación de chispa, vi muchasScheduler Delay en un escenario Algunos de ellos son incluso más de ...

regex amazon-s3 pyspark glob

1 la respuesta

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

Tengo un número de archivos cada uno segregado por fecha(date=yyyymmdd) en amazon s3. Los archivos se remontan a 6 meses, pero me gustaría restringir mi script para que solo use los últimos 3 meses de datos. No estoy seguro de si podré usar ...

java spark-cassandra-connector cassandra

2 la respuesta

Apache Spark toma de 5 a 6 minutos para un conteo simple de 1 billón de filas de Cassandra

Estoy usando el conector Spark Cassandra. Se requieren de 5 a 6 minutos para obtener datos de la tabla Cassandra. En Spark he visto muchas tareas y ejecutor en el registro. ¡La razón podría ser que Spark dividió el proceso en muchas tareas! A ...

Página 112 de 165

110 111112113 114

Resultados de la búsqueda a petición "apache-spark"

Foreach perezoso en un Spark RDD

Prueba de integración fallida para Apache Spark Streaming

Vector escaso vs Vector denso

Etiquetas Populares

PySpark: mapear un SchemaRDD en un SchemaRDD

¿Existe una función de transformación RDD que observe los elementos vecinos?

Cómo agregar una nueva columna Struct a un DataFrame

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

¿Qué es el retraso del planificador en la línea de tiempo del evento de la interfaz de usuario de spark?

pyspark selecciona un subconjunto de archivos usando regex / glob de s3

Apache Spark toma de 5 a 6 minutos para un conteo simple de 1 billón de filas de Cassandra

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares