Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Aplicación Java Spark y Cassandra: Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / apache / spark / sql / Dataset

Obtuve una aplicación Java increíblemente siplme que casi copié de este ejemplo: http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 [http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2] Todo lo que quería hacer era leer los ...

1 la respuesta

Cómo cargar datos en fragmentos desde un marco de datos de pandas a un marco de datos de chispa

He leído datos en fragmentos sobre una conexión pyodbc usando algo como esto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Ahora quiero ...

5 la respuesta

cómo convertir una cadena json a un marco de datos en spark

Quiero convertir la variable de cadena a continuación en el marco de datos en spark. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Sé cómo crear un marco de datos desde un archivo json. sqlContext.read.json("file.json")pero no sé ...

2 la respuesta

Equivalente de chispas de IF y luego ELSE

He visto esta pregunta anteriormente aquí y he tomado lecciones de eso. Sin embargo, no estoy seguro de por qué recibo un error cuando siento que debería funcionar. Quiero crear una nueva columna en Spark existenteDataFrame por algunas ...

1 la respuesta

¿La chispa mantiene todos los elementos de un RDD [K, V] para una clave particular en una sola partición después de "groupByKey" incluso si los datos para una clave son muy grandes?

Considere que tengo un PairedRDD de, digamos, 10 particiones. Pero las claves no se distribuyen uniformemente, es decir, todas las 9 particiones que tienen datos pertenecen a una sola clave, por ejemploa y el resto de las llaves dicenb,c solo hay ...

1 la respuesta

¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?

Tengo un marco de datosdf con unVectorUDT columna llamadafeatures. ¿Cómo obtengo un elemento de la columna, digamos primer elemento? He intentado hacer lo siguiente from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

1 la respuesta

La versión de Jackson es demasiado vieja

Tengo lo siguientebuild.sbt archivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...

2 la respuesta

¿Cómo saber qué código se ejecuta en el controlador o el ejecutor?

Soy nuevo en Spark. ¿Cómo saber qué código se ejecutará en el controlador y cuál se ejecutará en los ejecutores? ¿Siempre tenemos que intentar codificar de modo que todo se ejecute en los ejecutores? ¿Hay alguna recomendación / forma de hacer ...

1 la respuesta

Archivo de configuración para definir la estructura del esquema JSON en PySpark

He creado una aplicación PySpark que lee el archivo JSON en un marco de datos a través de un esquema definido. ejemplo de código a continuación schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), ...

5 la respuesta

Dividir 1 columna en 3 columnas en spark scala

Tengo un marco de datos en Spark usando scala que tiene una columna que necesito dividir. scala> test.show +-------------+ |columnToSplit| +-------------+ | a.b.c| | d.e.f| +-------------+Necesito esta columna dividida para verse ...