Resultados de la búsqueda a petición "apache-spark"

Estoy usando transmisión estructurada con Spark 2.1.1. Necesito aplicar algo de lógica empresarial a los mensajes entrantes (de la fuente Kafka). esencialmente, necesito recoger el mensaje, obtener algunos valores clave, buscarlos en HBase y ...

excel scala apache-spark-sql

3 la respuesta

¿Cómo construir Dataframe desde un archivo Excel (xls, xlsx) en Scala Spark?

Tengo un granExcel(xlsx and xls) archivo con varias hojas y necesito convertirlo aRDD oDataframe para que pueda unirse a otrodataframe más tarde. Estaba pensando en usarApache POI [https://poi.apache.org/]y guardarlo comoCSV y luego ...

scala apache-spark-sql

4 la respuesta

¿Cómo concatenar múltiples columnas en una sola columna (sin conocimiento previo de su número)?

Digamos que tengo el siguiente marco de datos: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Deseo crear un nuevo marco de datos con una columna más que tenga ...

machine-learning parallel-processing scikit-learn cluster-computing

1 la respuesta

¿Cómo se distribuyen las tareas dentro de un clúster de Spark?

Entonces tengo una entrada que consiste en un conjunto de datos y varios algoritmos de ML (con ajuste de parámetros) usando scikit-learn. He intentado bastantes intentos sobre cómo ejecutar esto de la manera más eficiente posible, pero en este ...

scala dataframe apache-spark-sql

1 la respuesta

La unión automática no funciona como se esperaba con la API DataFrame

Estoy tratando de obtener los últimos registros de una tabla usando self join. Funciona usandospark-sql pero no funciona con chispaDataFrame API ¿Alguien puede ayudar? ¿Es un error? Estoy usando Spark 2.2.0 en modo local Creando ...

scala

1 la respuesta

Número de particiones predeterminado de Spark RDD

Versión: Spark 1.6.2, Scala 2.10 Estoy ejecutando los siguientes comandos en elspark-shell. Estoy tratando de ver la cantidad de particiones que Spark está creando por defecto. val rdd1 = sc.parallelize(1 to 10) println(rdd1.getNumPartitions) ...

rdd partition

1 la respuesta

Cómo chispa lee un archivo grande (petabyte) cuando el archivo no puede caber en la memoria principal de chispa

¿Qué pasará con los archivos grandes en estos casos? 1) Spark obtiene una ubicación de NameNode para datos. ¿Spark se detendrá en este mismo tiempo porque el tamaño de los datos es demasiado largo según la información de NameNode? 2) Spark hace ...

scala rdd

3 la respuesta

Acoplar JSON en estructura tabular utilizando solo la función Spark-Scala RDD

He anidado JSON y me gusta tener salida en estructura tabular. Puedo analizar los valores JSON individualmente, pero tengo algunos problemas para tabularlo. Puedo hacerlo fácilmente a través del marco de datos. Pero quiero hacerlo usando las ...

environment-variables amazon-web-services emr hadoop

2 la respuesta

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...

pyspark spark-dataframe python

2 la respuesta

Grupo Pyspark Dataframe mediante filtrado

Tengo un marco de datos como a continuación cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Tengo que mirar a los clientes, ver cuántos requisitos tienen y ver si han cumplido al menos ...

Página 56 de 165

54 555657 58

Resultados de la búsqueda a petición "apache-spark"

Spark Structured Streaming - Procesando cada fila

¿Cómo construir Dataframe desde un archivo Excel (xls, xlsx) en Scala Spark?

¿Cómo concatenar múltiples columnas en una sola columna (sin conocimiento previo de su número)?

Etiquetas Populares

¿Cómo se distribuyen las tareas dentro de un clúster de Spark?

La unión automática no funciona como se esperaba con la API DataFrame

Número de particiones predeterminado de Spark RDD

Cómo chispa lee un archivo grande (petabyte) cuando el archivo no puede caber en la memoria principal de chispa

Acoplar JSON en estructura tabular utilizando solo la función Spark-Scala RDD

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

Grupo Pyspark Dataframe mediante filtrado

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares