Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R

Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión? ¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar ...

1 la respuesta

¿Cómo registro una función en sqlContext UDF en scala?

Tengo un método llamado getAge (timestamp: Long) y quiero registrar esto como una función sql. yo tengo sqlContext.udf.register("getAge",getAge)Pero me dice que necesito argumentos o uso _ luego, intenté usar _ pero me da un error. ¿Cómo lo ...

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

1 la respuesta

Uso del método de chispa DataFrame "como"

estoy mirando aspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentación. Ahi esta def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0¿Cuál ...

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

1 la respuesta

Siempre aumentando la memoria física para una aplicación Spark en YARN

Estoy ejecutando una aplicación Spark en YARN que tiene dos ejecutores con Xms / Xmx como 32 GB y spark.yarn.excutor.memoryOverhead como 6 GB. Estoy viendo que la memoria física de la aplicación está aumentando y finalmente el administrador de ...

1 la respuesta

Colmena UDF para seleccionar todo excepto algunas columnas

El patrón común de creación de consultas en HiveQL (y SQL en general) es seleccionar todas las columnas (SELECT *) o un conjunto de columnas explícitamente especificado (SELECT A, B, C) SQL no tiene un mecanismo incorporado para seleccionar todos ...

1 la respuesta

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...