Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

2 la respuesta

Cómo formatear la salida de Spark Python

(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Esto lo conseguí uniéndome a los dos RDD basados en Ids, esto es como(clave, (value_left, value_right))mediante el uso de esta ...

2 la respuesta

¿Cómo ordenar dentro de particiones (y evitar ordenarlas) usando la API RDD?

Es el comportamiento predeterminado de Hadoop MapReduce shuffle ordenar la clave aleatoria dentro de la partición, pero no las particiones cruzadas (es el orden total que hace que las teclas ordenadas crucen las particiones) Preguntaría cómo ...

5 la respuesta

Rastreo web distribuido con Apache Spark: ¿es posible?

Me hicieron una pregunta interesante cuando asistí a una entrevista sobre minería web. La pregunta era, ¿es posible rastrear los sitios web usando Apache Spark? Supuse que era posible, porque admite la capacidad de procesamiento distribuido de ...

1 la respuesta

API de apache spark rest

Estoy usando el comando spark-submit que tengo para las propiedades log4j para invocar un Spark-submit como este: /opt/spark-1.6.2-bin-hadoop2.6/bin/spark-submit \ --driver-java-options ...

1 la respuesta

Convertir DataFrame a RDD [Mapa] en Scala

Quiero convertir una matriz creada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Cuando recopilo los ...

2 la respuesta

La agrupación de paquetes Python3 para PySpark resulta en importaciones faltantes

Estoy tratando de ejecutar un trabajo de PySpark que depende de ciertas bibliotecas de python3. Sé que puedo instalar estas bibliotecas en el Spark Cluster, pero como estoy reutilizando el clúster para varios trabajos, me gustaría agrupar todas ...

2 la respuesta

Spark: diferencia cuando se lee en .gz y .bz2

Normalmente leo y escribo archivos en Spark usando .gz, cuyo número de archivos debe ser el mismo que el número de particiones RDD. Es decir. un archivo .gz gigante se leerá en una sola partición. Sin embargo, si leo en un solo .bz2, ¿obtendría ...

2 la respuesta

Forma óptima de crear una tubería ml en Apache Spark para el conjunto de datos con un alto número de columnas

Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~ 2000 características y estoy tratando de crear una Tubería ML básica, que consta de algunos Transformadores y un Clasificador. Supongamos, por simplicidad, que el Pipeline con el que ...

3 la respuesta

Acoplar marco de datos de chispa anidada

¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...