Resultados de la búsqueda a petición "apache-spark"
¿Cómo pasar datos de Kafka a Spark Streaming?
Estoy tratando de pasar datos de kafka a la transmisión por chispa. Esto es lo que he hecho hasta ahora: Instalado amboskafka ysparkEmpezadozookeeper con configuración de propiedades predeterminadaEmpezadokafka server con configuración de ...
Lea los archivos enviados con el envío de chispas por el controlador
Estoy enviando un trabajo de Spark para ejecutar en un clúster remoto ejecutando spark-submit ... --deploy-mode cluster --files some.properties ...Quiero leer el contenido de lasome.properties archivo por elconductorcódigo, es decir, antes ...
Sparkr escribe DF como archivo csv / txt
Hola, estoy trabajando en sparkR en modo hilo. Necesito escribir un sparkr df en un archivo csv / txt. Vi que haywrite.df pero escribe archivos de parquet. Traté de hacer estas cosas RdataFrame<-collect(SparkRDF) write.table(RdataFrame, ...
Agregar datos nuevos a archivos de parquet particionados
Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...
Spark: Agregar columna al marco de datos condicionalmente
Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3Y agregue una columna al final según si B está vacío o no: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Puedo hacer esto fácilmente registrando ...
Mientras envía el trabajo con pyspark, ¿cómo acceder a la carga de archivos estáticos con el argumento --files?
Por ejemplo, tengo una carpeta: / - test.py - test.ymly el trabajo se envía al grupo de chispas con: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" en eltest.py, Quiero acceder al archivo estático que cargué. with ...
FetchFailedException o MetadataFetchFailedException al procesar grandes conjuntos de datos
Cuando ejecuto el código de análisis con un conjunto de datos de 1 GB, se completa sin ningún error. Pero, cuando intento 25 gb de datos a la vez, obtengo los siguientes errores. Estoy tratando de entender cómo puedo evitar los siguientes fallos. ...
Función Strip o Regex en Spark 1.3 Dataframe
Tengo un código de PySpark 1.5 que desafortunadamente tengo que portar hacia atrás a Spark 1.3. Tengo una columna con elementos que son alfanuméricos pero solo quiero los dígitos. Un ejemplo de los elementos en 'old_col' de 'df' son: '125 ...
Múltiples operaciones agregadas en la misma columna de un marco de datos de chispa
Tengo tres matrices de tipo de cadena que contienen la siguiente información: matriz groupBy: contiene los nombres de las columnas por las que quiero agrupar mis datos.matriz agregada: contiene nombres de columnas que quiero agregar.matriz de ...
¿Cómo crear un conjunto de datos a partir de la clase personalizada Persona?
Estaba tratando de crear unDataset en Java, entonces escribo el siguiente código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...