Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Spark streaming en dataproc lanza FileNotFoundException

Cuando intento enviar un trabajo de transmisión por chispa al clúster de google dataproc, obtengo esta excepción: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

2 la respuesta

Ejecución de EMR Spark con varias cuentas S3

Tengo un EMR Spark Job que necesita leer datos de S3 en una cuenta y escribir en otra. Dividí mi trabajo en dos pasos. leer datos del S3 (no se requieren credenciales porque mi clúster EMR está en la misma cuenta). lea los datos en el HDFS ...

3 la respuesta

Propiedad spark.yarn.jars: ¿cómo lidiar con ella?

Mi conocimiento con Spark es limitado y lo sentirías después de leer esta pregunta. Tengo solo un nodo y la chispa, el hadoop y el hilo están instalados en él. Pude codificar y ejecutar el problema de conteo de palabras en modo de clúster con el ...

4 la respuesta

Conjunto de datos sesgados unirse en Spark?

Me estoy uniendo a dos grandes conjuntos de datos usando Spark RDD. Un conjunto de datos está muy sesgado, por lo que pocas de las tareas del ejecutor tardan mucho tiempo en finalizar el trabajo. ¿Cómo puedo resolver este escenario?

2 la respuesta

archivo de texto de ancho fijo de análisis de pyspark

Intentando analizar un archivo de texto de ancho fijo. mi archivo de texto tiene el siguiente aspecto y necesito una identificación de fila, fecha, una cadena y un entero: 00101292017you1234 00201302017 me5678Puedo leer el archivo de texto en ...

3 la respuesta

Scala - Spark In Dataframe recupera, para fila, nombre de columna con valor máximo

Tengo un DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Quiero un nuevo marco de datos con una columna con contener, el nombre de la columna con tiene un valor máximo para la fila: | ...

3 la respuesta

Error al inicializar SparkContext: se debe establecer una URL maestra en su configuración

solíaeste codigo [https://github.com/prashantprakash/KDDDataResearch/blob/master/Code/approach1Plus2/src/main/scala/PCA.scala] Mi error es: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/02/03 20:39:24 INFO ...

1 la respuesta

¿La fusión (numPartitions) en la chispa se baraja o no?

Tengo una pregunta simple en la función de transformación de chispa. coalesce (numPartitions): disminuye el número de particiones en el RDD a numPartitions. Útil para ejecutar operaciones de manera más eficiente después de filtrar un gran ...

1 la respuesta

GroupByKey y cree listas de valores pyspark sql dataframe

Entonces tengo un marco de datos de chispa que se parece a: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería: a | ...

1 la respuesta

Lectura de un gráfico grande de Titán (en HBase) en Spark

Estoy investigando Titan (en HBase) como candidato para una gran base de datos de gráficos distribuidos. Requerimos tanto el acceso OLTP (consultas rápidas de saltos múltiples sobre el gráfico) como el acceso OLAP (cargando todo, o al menos una ...