Resultados de la búsqueda a petición "apache-spark-sql"

Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión? ¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar ...

apache-spark scala

1 la respuesta

¿Cómo registro una función en sqlContext UDF en scala?

Tengo un método llamado getAge (timestamp: Long) y quiero registrar esto como una función sql. yo tengo sqlContext.udf.register("getAge",getAge)Pero me dice que necesito argumentos o uso _ luego, intenté usar _ pero me da un error. ¿Cómo lo ...

scala apache-spark

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

apache-spark scala dataframe

1 la respuesta

Uso del método de chispa DataFrame "como"

estoy mirando aspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentación. Ahi esta def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0¿Cuál ...

rdd scala apache-spark apache-spark-mllib

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

memory hadoop java apache-spark

1 la respuesta

Siempre aumentando la memoria física para una aplicación Spark en YARN

Estoy ejecutando una aplicación Spark en YARN que tiene dos ejecutores con Xms / Xmx como 32 GB y spark.yarn.excutor.memoryOverhead como 6 GB. Estoy viendo que la memoria física de la aplicación está aumentando y finalmente el administrador de ...

hiveql hive udf apache-spark

1 la respuesta

Colmena UDF para seleccionar todo excepto algunas columnas

El patrón común de creación de consultas en HiveQL (y SQL en general) es seleccionar todas las columnas (SELECT *) o un conjunto de columnas explícitamente especificado (SELECT A, B, C) SQL no tiene un mecanismo incorporado para seleccionar todos ...

apache-spark scala

1 la respuesta

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Tengo registros de usuarios que tomé de un csv y convertí en un DataFrame para aprovechar las funciones de consulta de SparkSQL. Un solo usuario creará numerosas entradas por hora, y me gustaría recopilar información estadística básica para cada ...

spark-dataframe apache-spark dataframe

1 la respuesta

Spark dataframes groupby en la lista

Estoy tratando de hacer un análisis en conjuntos. Tengo un conjunto de datos de muestra que se ve así: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Todo lo que es, es un campo único que es una lista de ...

apache-spark json pyspark python

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

Página 2 de 52

123 4 5

Resultados de la búsqueda a petición "apache-spark-sql"

Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R

¿Cómo registro una función en sqlContext UDF en scala?

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

Etiquetas Populares

Uso del método de chispa DataFrame "como"

Conversión de RDD a La LabelPoint

Siempre aumentando la memoria física para una aplicación Spark en YARN

Colmena UDF para seleccionar todo excepto algunas columnas

Calcular la desviación estándar de datos agrupados en un Spark DataFrame

Spark dataframes groupby en la lista

PySpark, importando esquema a través del archivo JSON

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares