Resultados de la búsqueda a petición "apache-spark"
Función de ventana Spark SQL con condición compleja
Esto es probablemente más fácil de explicar a través del ejemplo. Supongamos que tengo un DataFrame de inicios de sesión de usuario en un sitio web, por ejemplo: scala> df.show(5) +----------------+----------+ | ...
sbt dependencia no resuelta para spark-cassandra-connector 2.0.2
build.sbt: val sparkVersion = "2.1.1"; libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided"; libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % "provided"; libraryDependencies += ...
Acceso a elementos de WrappedArray
Tengo un marco de datos de chispa y aquí está el esquema: |-- eid: long (nullable = true) |-- age: long (nullable = true) |-- sex: long (nullable = true) |-- father: array (nullable = true) | |-- element: array (containsNull = true) | | |-- ...
Uso del objeto Python personalizado en Pyspark UDF
Al ejecutar el siguiente fragmento de código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) ...
¿Cómo hacer predicciones con Sklearn Model dentro de Spark?
He entrenado un modelo en python usando sklearn. ¿Cómo podemos usar el mismo modelo para cargar en Spark y generar predicciones en una chispa RDD?
¿Por qué iniciar una consulta de transmisión conduce a "ExitCodeException exitCode = -1073741515"?
He estado tratando de acostumbrarme a la nueva transmisión estructurada, pero me sigue dando el siguiente error tan pronto como comienzo un.writeStream consulta. ¿Alguna idea de lo que podría estar causando esto? Lo más cercano que ...
Usando Scala 2.12 con Spark 2.x
En la chispa 2.1docs [https://spark.apache.org/docs/latest/]se menciona que Spark se ejecuta en Java 7+, Python 2.6 + / 3.4 + y R 3.1+. Para la API de Scala, Spark 2.1.0 usa Scala 2.11. Deberá usar una versión compatible de Scala (2.11.x). en ...
Cómo evitar la optimización de Spark
A veces, Spark "optimiza" un marco de datos de manera ineficiente. Considere el siguiente ejemplo en Spark 2.1 (también se puede reproducir en Spark 1.6): val df = sparkContext.parallelize((1 to ...
¿Cómo dividir la columna de valores múltiples en filas separadas usando Dataset escrito?
Estoy enfrentando un problema de cómo dividir una columna de valores múltiples, es decirList[String], en filas separadas. El conjunto de datos inicial tiene los siguientes tipos:Dataset[(Integer, String, Double, ...
Izquierda Anti unirse a Spark?
He definido dos tablas como esta: val tableName = "table1" val tableName2 = "table2" val format = new SimpleDateFormat("yyyy-MM-dd") val data = List( List("mike", 26, true), List("susan", 26, false), List("john", 33, true) ) val data2 = ...