Resultados de la búsqueda a petición "apache-spark"
Utilice SparkSession.sql () con JDBC
Problema: Me gustaría usar la conexión JDBC para hacer una solicitud personalizada usando spark. El objetivo de esta consulta es optimizar la asignación de memoria en los trabajadores, por eso no puedo usar: ss.read .format("jdbc") ...
Cómo YARN conoce la localidad de datos en Apache spark en modo cluster
Suponga que hay un trabajo de Spark que leerá un archivo llamado records.txt de HDFS y realizará algunas transformaciones y una acción (escriba la salida procesada en HDFS). El trabajo se enviará al modo de clúster YARN Suponga también que ...
Omitir la primera línea de cada archivo en Spark (Scala)
Estoy procesando una carpeta S3 que contiene archivos csv.gz en Spark. Cada archivo csv.gz tiene un encabezado que contiene nombres de columna. La forma en que cargo los datos contenidos en Spark es hacer referencia a la ruta / carpeta, ...
¿Cómo agregar un Spark Dataframe al final de otro dataframe?
Puedo usarwithcolumnpara agregar nuevas columnas a un marco de datos. Pero en scala, ¿cómo puedo agregar nuevas filas a un DataFrame? Estoy tratando de agregar un marco de datos en la parte inferior de otro. Entonces, ya sea cómo agregar filas ...
Multiplicación matricial en Apache Spark [cerrado]
Estoy tratando de realizar una multiplicación de matrices usando Apache Spark y Java. Tengo 2 preguntas principales: ¿Cómo crear RDD que pueda representar una matriz en Apache Spark?¿Cómo multiplicar dos de estos RDD?
Apache Spark lanza NullPointerException cuando encuentra una característica faltante
Tengo un problema extraño con PySpark al indexar columnas de cadenas en funciones. Aquí está mi archivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1donde me falta un valor ...
Problemas con la ejecución de múltiples consultas usando Spark y HiveSQL
Espero que alguien pueda ayudarme con este problema. Dentro de spark-shell donde si intento algo como a continuación: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if ...
¿Por qué se lanza "No se pueden llamar métodos en un SparkContext detenido" cuando se conecta a Spark Standalone desde la aplicación Java?
He descargado Apache Spark 1.4.1 precompilado para Hadoop 2.6 y versiones posteriores. Tengo dos máquinas Ubuntu 14.04. Uno de ellos lo configuré como el maestro Spark con un solo esclavo y la segunda máquina está ejecutando un esclavo Spark. ...
Ejecutor SparkLostFailure
Estoy tratando de ejecutar spark 1.5 en mesos en modo de clúster. Puedo iniciar el despachador y ejecutar el envío de chispa. Pero cuando lo hago, el controlador de chispa falla con lo siguiente: I1111 16:21:33.515130 25325 fetcher.cpp:414] ...
SparkR: dplyr-style split-apply-combine en DataFrame
Bajo el paradigma RDD anterior, podría especificar una clave y luego asignar una operación a los elementos RDD correspondientes a cada clave. No veo una forma clara de hacer esto con DataFrame en SparkR a partir de 1.5.1. Lo que me gustaría hacer ...