Resultados de la búsqueda a petición "apache-spark-sql"

6 la respuesta

¿Cómo crear un DataFrame vacío con un esquema especificado?

Quiero crear enDataFrame con un esquema especificado en Scala. He intentado usar la lectura JSON (quiero decir, leer un archivo vacío) pero no creo que sea la mejor práctica.

2 la respuesta

¿Cómo acceder a las tablas RDD a través de Spark SQL como un motor de consultas distribuidas JDBC?

Varias publicaciones en stackoverflow tienen respuestas con información parcial sobre cómo acceder a las tablas RDD a través de Spark SQL como un motor de consultas distribuidas JDBC. Así que me gustaría hacer las siguientes preguntas para ...

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

1 la respuesta

Uso del método de chispa DataFrame "como"

estoy mirando aspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentación. Ahi esta def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0¿Cuál ...

2 la respuesta

Cómo agregar una nueva columna Struct a un DataFrame

Actualmente estoy tratando de extraer una base de datos de MongoDB y usar Spark para ingerir ElasticSearch congeo_points. La base de datos de Mongo tiene valores de latitud y longitud, pero ElasticSearch requiere que se incluyan en elgeo_point ...

1 la respuesta

Siempre aumentando la memoria física para una aplicación Spark en YARN

Estoy ejecutando una aplicación Spark en YARN que tiene dos ejecutores con Xms / Xmx como 32 GB y spark.yarn.excutor.memoryOverhead como 6 GB. Estoy viendo que la memoria física de la aplicación está aumentando y finalmente el administrador de ...

5 la respuesta

Reemplazo SPARK SQL para la función agregada mysql GROUP_CONCAT

Tengo una tabla de dos columnas de tipo cadena (nombre de usuario, amigo) y para cada nombre de usuario, quiero recopilar todos sus amigos en una fila, concatenados como cadenas ('nombre de usuario1', 'amigos1, amigos2, amigos3'). Sé que MySql ...

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

1 la respuesta

Colmena UDF para seleccionar todo excepto algunas columnas

El patrón común de creación de consultas en HiveQL (y SQL en general) es seleccionar todas las columnas (SELECT *) o un conjunto de columnas explícitamente especificado (SELECT A, B, C) SQL no tiene un mecanismo incorporado para seleccionar todos ...

2 la respuesta

La consulta de Spark funciona muy lentamente

Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...