Resultados de la búsqueda a petición "apache-spark"

Tengo un local creado.egg paquete que depende deboto==2.38.0. Utilicé setuptools para crear la distribución de compilación. Todo funciona en mi propio entorno local, ya que obtieneboto correctamente dePiP. Sin embargo endatabricks no recupera ...

teradata spark-dataframe pyspark

2 la respuesta

¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?

Estoy tratando de acceder a una tabla de Teradata de tamaño medio (~ 100 millones de filas) a través de JDBC en modo independiente en un solo nodo (local [*]). Estoy usando Spark 1.4.1. y está configurado en una máquina muy potente (2 cpu, 24 ...

scala worksheet intellij-idea

6 la respuesta

Cómo configurar Intellij 14 Scala Worksheet para ejecutar Spark

Estoy tratando de crear un SparkContext en una hoja de trabajo de Intellij 14 Scala. aqui estan mis dependencias name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += ...

pyspark python hadoop amazon-s3

2 la respuesta

Conéctese a los datos S3 de PySpark

Estoy tratando de leer un archivo JSON, de Amazon s3, para crear un contexto de chispa y usarlo para procesar los datos. Spark está básicamente en un contenedor acoplable. Por lo tanto, poner archivos en la ruta del acoplador también es PITA. ...

hive pyspark mapr

1 la respuesta

El esquema de la tabla Spark y Hive no está sincronizado después de una sobrescritura externa

Tengo problemas con el esquema para que las tablas de Hive no estén sincronizadas entre Spark y Hive en un clúster Mapr con Spark 2.1.0 y Hive 2.1.1. Necesito tratar de resolver este problema específicamente para las tablas administradas, pero ...

shuffle rdd persist

4 la respuesta

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

apache-spark-sql spark-streaming

2 la respuesta

Suelte el marco de datos de chispa del caché

Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...

pyspark python

1 la respuesta

Escribir datos a Redis desde PySpark

En Scala, escribiríamos un RDD a Redis así: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Intenté hacer esto en PySpark ...

intellij-idea sbt scala

6 la respuesta

Idea 14 de IntelliJ: no se puede resolver la chispa del símbolo

Hice una dependencia de Spark que funcionó en mi primer proyecto. Pero cuando intento hacer un nuevo proyecto con Spark, mi SBT no importa los frascos externos de org.apache.spark. Por lo tanto, IntelliJ Idea da el error de que "no puede resolver ...

python apache-spark-mllib text-classification tf-idf

1 la respuesta

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...

Página 118 de 165

116 117118119 120

Resultados de la búsqueda a petición "apache-spark"

Databricks (Spark): ¿las dependencias .egg no se instalan automáticamente?

¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?

Cómo configurar Intellij 14 Scala Worksheet para ejecutar Spark

Etiquetas Populares

Conéctese a los datos S3 de PySpark

El esquema de la tabla Spark y Hive no está sincronizado después de una sobrescritura externa

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

Suelte el marco de datos de chispa del caché

Escribir datos a Redis desde PySpark

Idea 14 de IntelliJ: no se puede resolver la chispa del símbolo

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares