Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

¿Número de particiones de trama de datos después de ordenar?

Cómo se determina la cantidad de particiones después de usar unaorderBy? Siempre pensé que el marco de datos resultante tienespark.sql.shuffle.partitions, pero esto no parece ser cierto: val df = (1 to 10000).map(i => ...

1 la respuesta

¿Cómo usar la función de transformación de orden superior?

Se trata detransform función de orden superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). ¿Hay alguna forma de usarlo como una función estándar (en ...

3 la respuesta

¿Cómo encontrar elementos comunes entre dos columnas de matriz?

Tengo dos columnas de cadena separadas por comas sourceAuthors ytargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Me gustaría agregar otra columnanCommonAuthors con el número de ...

1 la respuesta

Insertar Json en Hbase como JSON - Scala

Me gustaría insertar un objeto json en una escala de uso de celdas Hbase, actualmente puedo insertar valores utilizando el código siguiente, pero me gustaría saber cómo puedo insertar todo el objeto Json en una celda Hbase. import ...

3 la respuesta

Apache Spark y error de Java - Causado por: java.lang.StringIndexOutOfBoundsException: comienzo 0, fin 3, longitud 2

Soy nuevo en el marco de chispa. He intentado crear una aplicación de muestra usando spark y java. Tengo el siguiente códig Pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> ...

1 la respuesta

pyspark convierte fila a json con nulos

Gol Para un marco de datos con esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

2 la respuesta

Pyspark eficiente unirse a

He leído mucho sobre cómo hacer combinaciones eficientes en pyspark. Las formas de lograr uniones eficientes que he encontrado son básicamente: Utilice una unión de transmisión si puede. Normalmente no puedo porque los marcos de datos son ...

2 la respuesta

PySpark: ¿Cómo crear un JSON anidado a partir del marco de datos de chispa?

Estoy tratando de crear un json anidado a partir de mi marco de datos de chispa que tiene datos en la siguiente estructura. El siguiente código está creando un json simple con clave y valor. Podrias ayudarme por ...

1 la respuesta

Producto cartesiano detectado para INNER unirse en columna literal en PySpark

El siguiente código genera la excepción "Producto cartesiano detectado para la unión INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": ...

1 la respuesta

¿Hay alguna manera de enviar trabajos espía en diferentes servidores que ejecutan master

Tenemos el requisito de programar trabajos de chispa, ya que estamos familiarizados con el flujo de aire apache, queremos seguir adelante para crear diferentes flujos de trabajo. Busqué en la web pero no encontré una guía paso a paso para ...