Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo usar la función de transformación de orden superior?

Se trata detransform función de orden superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). ¿Hay alguna forma de usarlo como una función estándar (en ...

2 la respuesta

¿Número de particiones de trama de datos después de ordenar?

Cómo se determina la cantidad de particiones después de usar unaorderBy? Siempre pensé que el marco de datos resultante tienespark.sql.shuffle.partitions, pero esto no parece ser cierto: val df = (1 to 10000).map(i => ...

2 la respuesta

PySpark: ¿crear dict de dictos desde el marco de datos?

Tengo datos en el siguiente formato, que se obtiene de Hive en un marco de datos: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Donde la fecha es ...

2 la respuesta

¿Cómo insertar DataFrame de transmisión estructurada por chispa en la tabla / ubicación externa de Hive?

Una consulta sobre integración de transmisión estructurada por chispa con tabla HIVE. He intentado hacer algunos ejemplos de transmisión estructurada por chispa. aquí está mi ejemplo val spark =SparkSession.builder().appName("StatsAnalyzer") ...

1 la respuesta

¿Cómo insisto en HDFS con chispa?

Tengo datos particionados en el HDFS. En algún momento decido actualizarlo. El algoritmo es: Lee los nuevos datos de un tema kafka. Encuentre nuevos nombres de partición de datos. Cargue los datos de las particiones con estos nombres que se ...

0 la respuesta

Zeppeling lanzando NullPointerException mientras configura

Estoy tratando de configurar zeppelin-0.8.0 en mi sistema operativo windos 8 r2. Ya he ejecutado spark en mi consola, es decir, SPARK_HOME y JAVA_HOME, HADOOP_HOME configurado y funcionando bien. Pero mientras intento ejecutar printl ("hola") en ...

1 la respuesta

¿Cómo crear un json anidado en Pyspark?

Estoy tratando de crear un json anidado a partir de los datos a continuación. Solo los nombres de campo comosegid yval son constantes, el resto no es constante. Necesito ponerlos en la lista de categorías. Podrias ayudarme por favor ...

2 la respuesta

Detección de sufijo de cadena eficiente

Estoy trabajando con PySpark en un gran conjunto de datos, donde quiero filtrar el marco de datos basado en cadenas en otro marco de datos. Por ejemplo dd ...

0 la respuesta

Esquema generado dinámicamente en un archivo json para un archivo de datos csv en scala

Necesita su ayuda para definir un esquema dinámico con campos y tipos de datos del archivo JSon de metadatos de entrada para los datos en un archivo csv en Databricks. Quiero definir un esquema que asigne el nombre del campo con el tipo de ...

1 la respuesta

mplementación de @Pyspark de DATEADD

Tengo mi código T-SQL como se muestra a continuación cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as date Cómo implementarDATE_ADD funtion en PYSPARK?