Resultados de la búsqueda a petición "apache-spark"
Cómo escribir ElasticsearchSink para la transmisión estructurada de Spark
Estoy usando la transmisión estructurada de Spark para procesar datos de alto volumen de la cola de Kafka y estoy haciendo algunos cálculos de ML, pero necesito escribir el resultado en Elasticsearch. Traté de usar elForeachWriter pero no puedo ...
Agregue la columna Número de días a la Columna Fecha en el mismo marco de datos para la aplicación Spark Scala
tengo undataframe df decolumns ("id", "current_date", "days") y estoy tratando de agregar el "days" a "current_date"y crear un nuevodataframe con nuevocolumn llamado "new_date"usando la función spark scaladate_add() val newDF = ...
¿Dónde está la referencia para las opciones de escritura o lectura por formato?
Yo uso Spark 1.6.1. Estamos tratando de escribir un archivo ORC en HDFS usando HiveContext y DataFrameWriter. Si bien podemos usar df.write().orc(<path>)preferiríamos hacer algo como df.write().options(Map("format" -> "orc", "path" -> ...
¿Cómo usar DataFrame withColumn y no cambiar la partición?
Por alguna razón tengo que convertirRDD aDataFrameentonces haz algo conDataFrame. Mi interfaz esRDDasí que tengo que convertirDataFrame aRDD, Y cuando usodf.withcolumn, la partición cambia a 1, así que tengo querepartition ysortBy RDD. ¿Hay ...
SparkContext setLocalProperties
Como continuación deesta pregunta [https://stackoverflow.com/questions/42698500/spark-launch-from-single-jvm-jobs-with-different-memory-cores-configs-simultane] , ¿podría decirme de qué propiedades puedo ...
¿Por qué mi pyspark simplemente se cuelga como ACEPTADO en hilo cuando lo lanzo?
Acabo de girar un nuevoAWS instancia enLinux. E instalépyspark en eso. Tienespark 1.6. Estoy corriendopyspark conyarn. Cuando hago el comandopyspark en la terminal, se inicia inicialmente, pero luego recibo el mensaje: dd/mm/YY HH:MM:SS INFO ...
pyspark importar módulo definido por el usuario o archivos .py
Construí unmódulo de python [https://docs.python.org/2/tutorial/modules.html]y quiero importarlo en mi aplicación pyspark. La estructura de mi directorio de paquetes es: wesam/ |-- data.py `-- __init__.pyUn simpleimport wesam en la parte ...
Cuente el número de valores faltantes en un marco de datos Spark
tengo undataset con valores faltantes, me gustaría obtener el número de valores faltantes para cada columna. Lo siguiente es lo que hice, obtuve el número de valores no faltantes. ¿Cómo puedo usarlo para obtener el número de ...
NullPointerException después de extraer una tabla Teradata con Scala / Spark
Necesito extraer una tabla de Teradata (acceso de solo lectura) al parquet con Scala (2.11) / Spark (2.1.0). Estoy construyendo un marco de datos que puedo cargar con éxito val df = spark.read.format("jdbc").options(options).load()Perodf.show me ...
¿Cómo enumerar todas las tablas en la base de datos usando Spark SQL?
Tengo una conexión SparkSQL a una base de datos externa: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Si sé el nombre de una tabla, es fácil de ...