Resultados de la búsqueda a petición "bigdata"

2 la respuesta

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

1 la respuesta

Extienda la máscara numpy por n celdas a la derecha para cada valor incorrecto, de manera eficiente

Digamos que tengo una matriz de longitud 30 con 4 valores incorrectos. Quiero crear una máscara para esos valores incorrectos, pero dado que usaré funciones de ventana móvil, también me gustaría que un número fijo de índices posteriores después ...

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

1 la respuesta

Spark data type adivinador UDAF

Quería tomar algo como esto https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]y cree un HDAF Hive para crear una función agregada que ...

3 la respuesta

python: uso de estructuras de pandas con csv grande (iterar y tamaño de fragmento)

Tengo un archivo csv grande, de unos 600 MB con 11 millones de filas y quiero crear datos estadísticos como pivotes, histogramas, gráficos, etc. Obviamente, solo intento leerlo normalmente: df = pd.read_csv('Check400_900.csv', sep='\t')no ...

3 la respuesta

¿Cómo establecer el tamaño del bloque de datos en Hadoop? ¿Es ventajoso cambiarlo?

Si podemos cambiar el tamaño del bloque de datos en Hadoop, hágamelo saber cómo hacerlo. ¿Es ventajoso cambiar el tamaño del bloque? En caso afirmativo, avíseme ¿Por qué y cómo? Si no es así, ¿me avisas por qué y cómo?

1 la respuesta

Trabajo SparkR 100 minutos de tiempo de espera

He escrito un script sparkR un poco complejo y lo ejecuto usando spark-submit. Lo que básicamente hace el script es leer una gran tabla basada en parqué colmena / impala fila por fila y generar un nuevo archivo de parquet que tenga el mismo ...

2 la respuesta

¿Cómo obtener todas las definiciones de tabla en una base de datos en Hive?

Estoy buscando obtener todas las definiciones de tabla en Hive. Sé que para la definición de una sola tabla puedo usar algo como: describe <<table_name>> describe extended <<table_name>>Pero, no pude encontrar una manera de obtener todas las ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

1 la respuesta

¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar

Esta pregunta ya tiene una respuesta aquí: ¿Qué hará chispa si no tengo suficiente memoria? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respuestas Hasta donde yo sé, Spark intenta hacer todos los cálculos en ...