Resultados de la búsqueda a petición "apache-spark"
Similitud de cadenas con condición OR en MinHash Spark ML
Tengo dos conjuntos de datos, el primero es un conjunto de datos de referencia grande y el segundo conjunto de datos encontrará la mejor coincidencia del primer conjunto de datos a través del algoritmo MinHash. val dataset1 = ...
¿Cómo agregar múltiples columnas usando UDF?
Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...
Cargue datos CSV en Dataframe y conviértalos a Array usando Apache Spark (Java)
Tengo un archivo CSV con los siguientes datos: 1,2,5 2,4 2,3Quiero cargarlos en un marco de datos que tenga un esquema de cadena de matriz La salida debería ser como a continuación. [1, 2, 5] [2, 4] [2, 3]Esto ha sido respondido usando scala ...
pyspark rdd isCheckPointed () es falso
Me encontraba con stackoverflowerrors cuando estaba agregando iterativamente más de 500 columnas a mi marco de datos pyspark. Entonces, incluí puntos de control. Los puntos de control no ayudaron. Entonces, creé la siguiente aplicación de juguete ...
¿Por qué no hay una función de mapa para el marco de datos en pyspark mientras que el equivalente de chispa lo tiene?
Actualmente trabajando en PySpark. No hay función de mapa enDataFramey uno tiene que ir aRDD paramap función. En Scala hay unmap enDataFrame, ¿Hay alguna razón para esto?
¿Cuál es la diferencia entre SparkSession.sql y Dataset.sqlContext.sql?
Tengo los siguientes fragmentos de código y me pregunto cuál es la diferencia entre estos dos y cuál debo usar. Estoy usando la chispa 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") ...
¿Por qué falla el envío de chispas con "IllegalArgumentException: falta un recurso de aplicación"?
Cuando creo el jar de mi aplicación Spark e intento ejecutarlo usandospark-submit, Estoy teniendo el siguiente error. Este es el comando que solía ejecutar. spark-submit --executor-memory 1g ...
Spark 2.2 Scala DataFrame selecciona del conjunto de cadenas, detectando errores
Soy nuevo en SparkSQL / Scala y estoy luchando con un par de tareas aparentemente simples. Estoy tratando de construir un SQL dinámico a partir de una matriz de cadenas Scala. Estoy tratando de volver a escribir algunas columnas en mi ...
¿Cómo explotar una columna separada por espacios?
Tengo un marco de datos de muestra en Spark Scala que contiene una columna y muchas otras columnas 50+ y necesito explotar id: datos de ejemplo: id name address 234 435 567 auh aus 345 123 muji ukdatos resultantes: id name address 234 auh aus ...
¿Qué recupera Spark los datos de un nodo fallido?
Supongamos que tenemos un RDD, que se usa varias veces. Entonces, para guardar los cálculos una y otra vez, persistimos en este RDD usando el método rdd.persist (). Entonces, cuando persistimos en este RDD, los nodos que computan el ...