Resultados de la búsqueda a petición "apache-spark"
Cómo filtrar por rango de fechas en Spark SQL
Estoy tratando de filtrar el rango de fechas de los siguientes datos usando ladrillos de datos, que devuelve nulo como respuesta. Mis datos csv se ven así: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 ...
Conéctese a SQLite en Apache Spark
Quiero ejecutar una función personalizada en todas las tablas en una base de datos SQLite. La función es más o menos la misma, pero depende del esquema de la tabla individual. Además, las tablas y sus esquemas solo se conocen en tiempo ...
Escribir marcos de datos R devueltos desde SparkR ::: map
Estoy usando SparkR ::: map y mi función devuelve un marco de datos R de gran tamaño para cada fila de entrada, cada una de la misma forma. Me gustaría escribir estos marcos de datos como archivos de parquet sin 'recopilarlos'. ¿Puedo asignar ...
¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?
Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...
Pasar frascos adicionales a Spark mediante envío de chispa
Estoy usando Spark con MongoDB y, en consecuencia, confío en elmongo-hadoop conductores Tengo las cosas funcionando gracias a la entrada en mi ...
Apile los marcos de datos de Spark horizontalmente - equivalente a pandas concat o r cbind
¿Hay alguna manera de agregar undataframe horizontalmente a otro, ¿suponiendo que ambos tengan un número idéntico de filas? Esto sería el equivalente depandas concat poraxis=1; result = pd.concat([df1, df4], axis=1)o laR cbind
Las tablas de la colmena no se encuentran cuando se ejecuta en modo YARN-Cluster
Tengo una aplicación Spark (versión 1.4.1) en HDP 2.3. Funciona bien cuando se ejecuta en modo YARN-Client. Sin embargo, cuando se ejecuta en modo YARN-Cluster, la aplicación no puede encontrar ninguna de mis tablas de Hive. Presento la ...
¿Cómo cambiar los nombres de columna del marco de datos en pyspark?
Vengo de antecedentes de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de columna a algo útil usando el comando simple: df.columns = new_column_name_listSin embargo, lo ...
Cómo cambiar el nombre de los campos en un DataFrame correspondiente a JSON anidado
Estoy tratando de procesar eventos JSON recibidos en una aplicación móvil (como clics, etc.) usandospark 1.5.2. Existen múltiples versiones de aplicaciones y la estructura de los eventos varía según las versiones. Digamos que la versión 1 tiene ...
Spark 1.5.1 no funciona con la colmena jdbc 1.2.0
Estoy tratando de ejecutar la consulta de la colmena usando spark 1.5.1 en modo independiente y la versión 1.2.0 jdbc de la colmena. Aquí está mi pieza de código: private static final String HIVE_DRIVER = ...