Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

¿Cómo pasar datos de Kafka a Spark Streaming?

Estoy tratando de pasar datos de kafka a la transmisión por chispa. Esto es lo que he hecho hasta ahora: Instalado amboskafka ysparkEmpezadozookeeper con configuración de propiedades predeterminadaEmpezadokafka server con configuración de ...

6 la respuesta

Lea los archivos enviados con el envío de chispas por el controlador

Estoy enviando un trabajo de Spark para ejecutar en un clúster remoto ejecutando spark-submit ... --deploy-mode cluster --files some.properties ...Quiero leer el contenido de lasome.properties archivo por elconductorcódigo, es decir, antes ...

1 la respuesta

Sparkr escribe DF como archivo csv / txt

Hola, estoy trabajando en sparkR en modo hilo. Necesito escribir un sparkr df en un archivo csv / txt. Vi que haywrite.df pero escribe archivos de parquet. Traté de hacer estas cosas RdataFrame<-collect(SparkRDF) write.table(RdataFrame, ...

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

3 la respuesta

Spark: Agregar columna al marco de datos condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...

3 la respuesta

Mientras envía el trabajo con pyspark, ¿cómo acceder a la carga de archivos estáticos con el argumento --files?

Por ejemplo, tengo una carpeta: / - test.py - test.ymly el trabajo se envía al grupo de chispas con: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" en eltest.py, Quiero acceder al archivo estático que cargué. with ...

4 la respuesta

FetchFailedException o MetadataFetchFailedException al procesar grandes conjuntos de datos

Cuando ejecuto el código de análisis con un conjunto de datos de 1 GB, se completa sin ningún error. Pero, cuando intento 25 gb de datos a la vez, obtengo los siguientes errores. Estoy tratando de entender cómo puedo evitar los siguientes fallos. ...

1 la respuesta

Función Strip o Regex en Spark 1.3 Dataframe

Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...

2 la respuesta

Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa

Tengo tres matrices de tipo de cadena que contienen la siguiente información: matriz groupBy: contiene los nombres de las columnas por las que quiero agrupar mis datos.matriz agregada: contiene nombres de columnas que quiero agregar.matriz de ...

3 la respuesta

¿Cómo crear un conjunto de datos a partir de la clase personalizada Persona?

Estaba tratando de crear unDataset en Java, entonces escribo el siguiente código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...