Resultados de la búsqueda a petición "apache-spark"

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

python

2 la respuesta

Cómo formatear la salida de Spark Python

(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Esto lo conseguí uniéndome a los dos RDD basados en Ids, esto es como(clave, (value_left, value_right))mediante el uso de esta ...

2 la respuesta

¿Cómo ordenar dentro de particiones (y evitar ordenarlas) usando la API RDD?

Es el comportamiento predeterminado de Hadoop MapReduce shuffle ordenar la clave aleatoria dentro de la partición, pero no las particiones cruzadas (es el orden total que hace que las teclas ordenadas crucen las particiones) Preguntaría cómo ...

web-crawler web

5 la respuesta

Rastreo web distribuido con Apache Spark: ¿es posible?

Me hicieron una pregunta interesante cuando asistí a una entrevista sobre minería web. La pregunta era, ¿es posible rastrear los sitios web usando Apache Spark? Supuse que era posible, porque admite la capacidad de procesamiento distribuido de ...

curl spark-jobserver

1 la respuesta

API de apache spark rest

Estoy usando el comando spark-submit que tengo para las propiedades log4j para invocar un Spark-submit como este: /opt/spark-1.6.2-bin-hadoop2.6/bin/spark-submit \ --driver-java-options ...

scala

1 la respuesta

Convertir DataFrame a RDD [Mapa] en Scala

Quiero convertir una matriz creada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Cuando recopilo los ...

python python-3.x numpy pyspark

2 la respuesta

La agrupación de paquetes Python3 para PySpark resulta en importaciones faltantes

Estoy tratando de ejecutar un trabajo de PySpark que depende de ciertas bibliotecas de python3. Sé que puedo instalar estas bibliotecas en el Spark Cluster, pero como estoy reutilizando el clúster para varios trabajos, me gustaría agrupar todas ...

gz rdd bz2

2 la respuesta

Spark: diferencia cuando se lee en .gz y .bz2

Normalmente leo y escribo archivos en Spark usando .gz, cuyo número de archivos debe ser el mismo que el número de particiones RDD. Es decir. un archivo .gz gigante se leerá en una sola partición. Sin embargo, si leo en un solo .bz2, ¿obtendría ...

scala apache-spark-mllib

2 la respuesta

Forma óptima de crear una tubería ml en Apache Spark para el conjunto de datos con un alto número de columnas

Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~ 2000 características y estoy tratando de crear una Tubería ML básica, que consta de algunos Transformadores y un Clasificador. Supongamos, por simplicidad, que el Pipeline con el que ...

pyspark spark-dataframe

3 la respuesta

Acoplar marco de datos de chispa anidada

¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...

Página 1 de 165

12 3 4 5

Resultados de la búsqueda a petición "apache-spark"

Agregar datos nuevos a archivos de parquet particionados

Cómo formatear la salida de Spark Python

¿Cómo ordenar dentro de particiones (y evitar ordenarlas) usando la API RDD?

Etiquetas Populares

Rastreo web distribuido con Apache Spark: ¿es posible?

API de apache spark rest

Convertir DataFrame a RDD [Mapa] en Scala

La agrupación de paquetes Python3 para PySpark resulta en importaciones faltantes

Spark: diferencia cuando se lee en .gz y .bz2

Forma óptima de crear una tubería ml en Apache Spark para el conjunto de datos con un alto número de columnas

Acoplar marco de datos de chispa anidada

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares