Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Función de ventana Spark SQL con condición compleja

Esto es probablemente más fácil de explicar a través del ejemplo. Supongamos que tengo un DataFrame de inicios de sesión de usuario en un sitio web, por ejemplo: scala> df.show(5) +----------------+----------+ | ...

1 la respuesta

sbt dependencia no resuelta para spark-cassandra-connector 2.0.2

build.sbt: val sparkVersion = "2.1.1"; libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided"; libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % "provided"; libraryDependencies += ...

3 la respuesta

Acceso a elementos de WrappedArray

Tengo un marco de datos de chispa y aquí está el esquema: |-- eid: long (nullable = true) |-- age: long (nullable = true) |-- sex: long (nullable = true) |-- father: array (nullable = true) | |-- element: array (containsNull = true) | | |-- ...

3 la respuesta

Uso del objeto Python personalizado en Pyspark UDF

Al ejecutar el siguiente fragmento de código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) ...

1 la respuesta

¿Cómo hacer predicciones con Sklearn Model dentro de Spark?

He entrenado un modelo en python usando sklearn. ¿Cómo podemos usar el mismo modelo para cargar en Spark y generar predicciones en una chispa RDD?

2 la respuesta

¿Por qué iniciar una consulta de transmisión conduce a "ExitCodeException exitCode = -1073741515"?

He estado tratando de acostumbrarme a la nueva transmisión estructurada, pero me sigue dando el siguiente error tan pronto como comienzo un.writeStream consulta. ¿Alguna idea de lo que podría estar causando esto? Lo más cercano que ...

2 la respuesta

Usando Scala 2.12 con Spark 2.x

En la chispa 2.1docs [https://spark.apache.org/docs/latest/]se menciona que Spark se ejecuta en Java 7+, Python 2.6 + / 3.4 + y R 3.1+. Para la API de Scala, Spark 2.1.0 usa Scala 2.11. Deberá usar una versión compatible de Scala (2.11.x). en ...

1 la respuesta

Cómo evitar la optimización de Spark

A veces, Spark "optimiza" un marco de datos de manera ineficiente. Considere el siguiente ejemplo en Spark 2.1 (también se puede reproducir en Spark 1.6): val df = sparkContext.parallelize((1 to ...

3 la respuesta

¿Cómo dividir la columna de valores múltiples en filas separadas usando Dataset escrito?

Estoy enfrentando un problema de cómo dividir una columna de valores múltiples, es decirList[String], en filas separadas. El conjunto de datos inicial tiene los siguientes tipos:Dataset[(Integer, String, Double, ...

2 la respuesta

Izquierda Anti unirse a Spark?

He definido dos tablas como esta: val tableName = "table1" val tableName2 = "table2" val format = new SimpleDateFormat("yyyy-MM-dd") val data = List( List("mike", 26, true), List("susan", 26, false), List("john", 33, true) ) val data2 = ...