Resultados de la búsqueda a petición "apache-spark"
¿Cómo confirmar manualmente el desplazamiento en la transmisión directa de Spark Kafka?
Miré a mi alrededor con fuerza, pero no encontré una respuesta satisfactoria a esto. Tal vez me estoy perdiendo algo. Por favor ayuda. Tenemos una aplicación de transmisión de Spark que consume un tema de Kafka, que debe garantizar el ...
Spark en Windows: ¿qué es exactamente winutils y por qué lo necesitamos?
¡Soy curioso! Que yo sepa, HDFS necesita procesos de nodo de datos para ejecutarse, y es por eso que solo funciona en servidores. Sin embargo, Spark puede ejecutarse localmente, pero necesita winutils.exe, que es un componente de Hadoop. Pero, ...
Lectura en múltiples archivos comprimidos en el archivo tar.gz en Spark [duplicado]
Esta pregunta ya tiene una respuesta aquí: Leer archivos de texto completos desde una compresión en Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 respuestasEstoy tratando de crear un Spark RDD a partir de varios ...
argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo
Dado un Spark DataFramedf, Quiero encontrar el valor máximo en una determinada columna numérica'values'y obtenga las filas donde se alcanzó ese valor. Por supuesto que puedo hacer esto: # it doesn't matter if I use scala or python, # since I ...
La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB
Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
Comprender la representación de la columna vectorial en Spark SQL
Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
Spark SQL UDF con parámetro de entrada complejo
Estoy tratando de usar UDF con el tipo de entrada Array of struct. Tengo la siguiente estructura de datos, esto es solo una parte relevante de una estructura más grande |--investments: array (nullable = true) | |-- element: struct (containsNull ...
Spark Dataset select with typedcolumn
Mirando a laselect() En la función Spark DataSet hay varias firmas de funciones generadas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Esto parece insinuar que debería poder hacer referencia a los miembros de ...
SparkSQL en tablas de HBase
Cualquiera está usando SparkSQL en tablas HBase directamente, como SparkSQL en tablas Hive. Soy nuevo en spark. Por favor, guíame cómo conectar hbase y spark. Cómo consultar en las tablas de hbase.
Calcular el costo de Kmeans
Estoy usando estomodelo [https://github.com/yahoo/lopq/blob/master/python/lopq/model.py], que no está escrito por mí. Para predecir los centroides, tuve que hacer esto: model = cPickle.load(open("/tmp/model_centroids_128d_pkl.lopq")) codes ...