Resultados de la búsqueda a petición "apache-spark"

Aplicación Java Spark y Cassandra: Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / apache / spark / sql / Dataset

Obtuve una aplicación Java increíblemente siplme que casi copié de este ejemplo: http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2 [http://markmail.org/download.xqy?id=zua6upabiylzeetp&number=2] Todo lo que quería hacer era leer los ...

python pandas pyspark

1 la respuesta

Cómo cargar datos en fragmentos desde un marco de datos de pandas a un marco de datos de chispa

He leído datos en fragmentos sobre una conexión pyodbc usando algo como esto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Ahora quiero ...

scala json dataframe

5 la respuesta

cómo convertir una cadena json a un marco de datos en spark

Quiero convertir la variable de cadena a continuación en el marco de datos en spark. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Sé cómo crear un marco de datos desde un archivo json. sqlContext.read.json("file.json")pero no sé ...

apache-spark-sql pyspark python

2 la respuesta

Equivalente de chispas de IF y luego ELSE

He visto esta pregunta anteriormente aquí y he tomado lecciones de eso. Sin embargo, no estoy seguro de por qué recibo un error cuando siento que debería funcionar. Quiero crear una nueva columna en Spark existenteDataFrame por algunas ...

rdd

1 la respuesta

¿La chispa mantiene todos los elementos de un RDD [K, V] para una clave particular en una sola partición después de "groupByKey" incluso si los datos para una clave son muy grandes?

Considere que tengo un PairedRDD de, digamos, 10 particiones. Pero las claves no se distribuyen uniformemente, es decir, todas las 9 particiones que tienen datos pertenecen a una sola clave, por ejemploa y el resto de las llaves dicenb,c solo hay ...

apache-spark-sql apache-spark-ml dataframe pyspark

1 la respuesta

¿Cómo acceder al elemento de una columna VectorUDT en un Spark DataFrame?

Tengo un marco de datosdf con unVectorUDT columna llamadafeatures. ¿Cómo obtengo un elemento de la columna, digamos primer elemento? He intentado hacer lo siguiente from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

scala sbt

1 la respuesta

La versión de Jackson es demasiado vieja

Tengo lo siguientebuild.sbt archivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...

2 la respuesta

¿Cómo saber qué código se ejecuta en el controlador o el ejecutor?

Soy nuevo en Spark. ¿Cómo saber qué código se ejecutará en el controlador y cuál se ejecutará en los ejecutores? ¿Siempre tenemos que intentar codificar de modo que todo se ejecute en los ejecutores? ¿Hay alguna recomendación / forma de hacer ...

pyspark apache-spark-sql python

1 la respuesta

Archivo de configuración para definir la estructura del esquema JSON en PySpark

He creado una aplicación PySpark que lee el archivo JSON en un marco de datos a través de un esquema definido. ejemplo de código a continuación schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), ...

scala

5 la respuesta

Dividir 1 columna en 3 columnas en spark scala

Tengo un marco de datos en Spark usando scala que tiene una columna que necesito dividir. scala> test.show +-------------+ |columnToSplit| +-------------+ | a.b.c| | d.e.f| +-------------+Necesito esta columna dividida para verse ...

Página 24 de 165

22 232425 26

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares