Resultados de la búsqueda a petición "apache-spark"
instalación de ventanas de chispa winutils
Estoy tratando de instalar Spark 1.6.1 en Windows 10 y hasta ahora he hecho lo siguiente ... Spark descargado 1.6.1, desempaquetado en algún directorio y luego configurar SPARK_HOMEScala 2.11.8 descargada, descomprimida en algún directorio y ...
¿Cuál es el equivalente de clase de caso Scala en PySpark?
¿Cómo haría para emplear y / o implementar una clase de caso equivalente en PySpark?
¿Cómo unir dos DataFrames en Scala y Apache Spark?
Hay dos marcos de datos (Scala, Apache Spark 1.6.1) 1) coincidencias MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Datos personales Player | BirthYear ...
¿Qué significa Exception: Randomness of hash of string debe deshabilitarse a través de PYTHONHASHSEED en pyspark?
Estoy tratando de crear un diccionario a partir de una lista en pyspark. Tengo la siguiente lista de listas: rawPositionsDa [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...
Soporte para gzip en Spark
Para un proyecto de Big Data, estoy planeando usarchispa, que tiene algunas características interesantes, como cálculos en memoria para cargas de trabajo rep...
Cómo emitir DataFrame con columnas vectoriales en RDD
Tengo un DataFrame (llamadodf1 en Pyspark en el que una de las columnas es de tipoDenseVector. Este es el esquema del marco de datos. DataFrame[prediction: double, probability: vector, label: double]Intento convertirlo en un RDD usandodf1.rdd ...
¿Cómo construir una matriz dispersa en PySpark?
Soy nuevo en Spark. Me gustaría hacer una matriz dispersa una matriz de ID de elemento de ID de usuario específicamente para un motor de recomendación. Sé cómo haría esto en Python. ¿Cómo se hace esto en PySpark? Así es como lo habría hecho en ...
Spark: diferencia cuando se lee en .gz y .bz2
Normalmente leo y escribo archivos en Spark usando .gz, cuyo número de archivos debe ser el mismo que el número de particiones RDD. Es decir. un archivo .gz gigante se leerá en una sola partición. Sin embargo, si leo en un solo .bz2, ¿obtendría ...
Configuración de Spark: SPARK_MEM vs. SPARK_WORKER_MEMORY
En spark-env.sh, es posible configurar las siguientes variables de entorno:
¿Por qué Spark 1.6 no usa Akka?
Cuando leo el código fuente de spark-1.6 delMaestro [https://github.com/apache/spark/blob/cf2e9da612397233ae7bca0e9ce57309f16226b5/core/src/main/scala/org/apache/spark/deploy/master/Master.scala] En la clase, el método ReceiveAndReply parece no ...