Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo confirmar manualmente el desplazamiento en la transmisión directa de Spark Kafka?

Miré a mi alrededor con fuerza, pero no encontré una respuesta satisfactoria a esto. Tal vez me estoy perdiendo algo. Por favor ayuda. Tenemos una aplicación de transmisión de Spark que consume un tema de Kafka, que debe garantizar el ...

1 la respuesta

Spark en Windows: ¿qué es exactamente winutils y por qué lo necesitamos?

¡Soy curioso! Que yo sepa, HDFS necesita procesos de nodo de datos para ejecutarse, y es por eso que solo funciona en servidores. Sin embargo, Spark puede ejecutarse localmente, pero necesita winutils.exe, que es un componente de Hadoop. Pero, ...

2 la respuesta

Lectura en múltiples archivos comprimidos en el archivo tar.gz en Spark [duplicado]

Esta pregunta ya tiene una respuesta aquí: Leer archivos de texto completos desde una compresión en Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 respuestasEstoy tratando de crear un Spark RDD a partir de varios ...

2 la respuesta

argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo

Dado un Spark DataFramedf, Quiero encontrar el valor máximo en una determinada columna numérica'values'y obtenga las filas donde se alcanzó ese valor. Por supuesto que puedo hacer esto: # it doesn't matter if I use scala or python, # since I ...

1 la respuesta

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

1 la respuesta

Comprender la representación de la columna vectorial en Spark SQL

Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

2 la respuesta

Spark SQL UDF con parámetro de entrada complejo

Estoy tratando de usar UDF con el tipo de entrada Array of struct. Tengo la siguiente estructura de datos, esto es solo una parte relevante de una estructura más grande |--investments: array (nullable = true) | |-- element: struct (containsNull ...

2 la respuesta

Spark Dataset select with typedcolumn

Mirando a laselect() En la función Spark DataSet hay varias firmas de funciones generadas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Esto parece insinuar que debería poder hacer referencia a los miembros de ...

1 la respuesta

SparkSQL en tablas de HBase

Cualquiera está usando SparkSQL en tablas HBase directamente, como SparkSQL en tablas Hive. Soy nuevo en spark. Por favor, guíame cómo conectar hbase y spark. Cómo consultar en las tablas de hbase.

1 la respuesta

Calcular el costo de Kmeans

Estoy usando estomodelo [https://github.com/yahoo/lopq/blob/master/python/lopq/model.py], que no está escrito por mí. Para predecir los centroides, tuve que hacer esto: model = cPickle.load(open("/tmp/model_centroids_128d_pkl.lopq")) codes ...