Resultados de la búsqueda a petición "apache-spark"
Databricks (Spark): ¿las dependencias .egg no se instalan automáticamente?
Tengo un local creado.egg paquete que depende deboto==2.38.0. Utilicé setuptools para crear la distribución de compilación. Todo funciona en mi propio entorno local, ya que obtieneboto correctamente dePiP. Sin embargo endatabricks no recupera ...
¿Cómo mejorar el rendimiento para trabajos lentos de Spark utilizando DataFrame y conexión JDBC?
Estoy tratando de acceder a una tabla de Teradata de tamaño medio (~ 100 millones de filas) a través de JDBC en modo independiente en un solo nodo (local [*]). Estoy usando Spark 1.4.1. y está configurado en una máquina muy potente (2 cpu, 24 ...
Cómo configurar Intellij 14 Scala Worksheet para ejecutar Spark
Estoy tratando de crear un SparkContext en una hoja de trabajo de Intellij 14 Scala. aqui estan mis dependencias name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += ...
Conéctese a los datos S3 de PySpark
Estoy tratando de leer un archivo JSON, de Amazon s3, para crear un contexto de chispa y usarlo para procesar los datos. Spark está básicamente en un contenedor acoplable. Por lo tanto, poner archivos en la ruta del acoplador también es PITA. ...
El esquema de la tabla Spark y Hive no está sincronizado después de una sobrescritura externa
Tengo problemas con el esquema para que las tablas de Hive no estén sincronizadas entre Spark y Hive en un clúster Mapr con Spark 2.1.0 y Hive 2.1.1. Necesito tratar de resolver este problema específicamente para las tablas administradas, pero ...
Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?
Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...
Suelte el marco de datos de chispa del caché
Estoy usando Spark 1.3.0 con python api. Al transformar grandes marcos de datos, guardo en caché muchos DF para una ejecución más rápida; df1.cache() df2.cache()Una vez que el uso de cierto marco de datos ha terminado y ya no es necesario, ¿cómo ...
Escribir datos a Redis desde PySpark
En Scala, escribiríamos un RDD a Redis así: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Intenté hacer esto en PySpark ...
Idea 14 de IntelliJ: no se puede resolver la chispa del símbolo
Hice una dependencia de Spark que funcionó en mi primer proyecto. Pero cuando intento hacer un nuevo proyecto con Spark, mi SBT no importa los frascos externos de org.apache.spark. Por lo tanto, IntelliJ Idea da el error de que "no puede resolver ...
¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?
Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...