Resultados de la búsqueda a petición "bigdata"

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

python numpy

1 la respuesta

Extienda la máscara numpy por n celdas a la derecha para cada valor incorrecto, de manera eficiente

Digamos que tengo una matriz de longitud 30 con 4 valores incorrectos. Quiero crear una máscara para esos valores incorrectos, pero dado que usaré funciones de ventana móvil, también me gustaría que un número fijo de índices posteriores después ...

pyspark python rdd apache-spark

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

hive machine-learning apache-spark-mllib apache-spark

1 la respuesta

Spark data type adivinador UDAF

Quería tomar algo como esto https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]y cree un HDAF Hive para crear una función agregada que ...

pandas dataframe csv python

3 la respuesta

python: uso de estructuras de pandas con csv grande (iterar y tamaño de fragmento)

Tengo un archivo csv grande, de unos 600 MB con 11 millones de filas y quiero crear datos estadísticos como pivotes, histogramas, gráficos, etc. Obviamente, solo intento leerlo normalmente: df = pd.read_csv('Check400_900.csv', sep='\t')no ...

hdfs hadoop cloudera hortonworks-data-platform

3 la respuesta

¿Cómo establecer el tamaño del bloque de datos en Hadoop? ¿Es ventajoso cambiarlo?

Si podemos cambiar el tamaño del bloque de datos en Hadoop, hágamelo saber cómo hacerlo. ¿Es ventajoso cambiar el tamaño del bloque? En caso afirmativo, avíseme ¿Por qué y cómo? Si no es así, ¿me avisas por qué y cómo?

hadoop sparkr apache-spark

1 la respuesta

Trabajo SparkR 100 minutos de tiempo de espera

He escrito un script sparkR un poco complejo y lo ejecuto usando spark-submit. Lo que básicamente hace el script es leer una gran tabla basada en parqué colmena / impala fila por fila y generar un nuevo archivo de parquet que tenga el mismo ...

hadoop hive

2 la respuesta

¿Cómo obtener todas las definiciones de tabla en una base de datos en Hive?

Estoy buscando obtener todas las definiciones de tabla en Hive. Sé que para la definición de una sola tabla puedo usar algo como: describe <<table_name>> describe extended <<table_name>>Pero, no pude encontrar una manera de obtener todas las ...

apache-spark spark-dataframe distributed-computing partitioning

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

scala hadoop apache-spark

1 la respuesta

¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar

Esta pregunta ya tiene una respuesta aquí: ¿Qué hará chispa si no tengo suficiente memoria? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 respuestas Hasta donde yo sé, Spark intenta hacer todos los cálculos en ...

Página 11 de 13

9 101112 13

Resultados de la búsqueda a petición "bigdata"

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

Extienda la máscara numpy por n celdas a la derecha para cada valor incorrecto, de manera eficiente

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Etiquetas Populares

Spark data type adivinador UDAF

python: uso de estructuras de pandas con csv grande (iterar y tamaño de fragmento)

¿Cómo establecer el tamaño del bloque de datos en Hadoop? ¿Es ventajoso cambiarlo?

Trabajo SparkR 100 minutos de tiempo de espera

¿Cómo obtener todas las definiciones de tabla en una base de datos en Hive?

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

¿Qué sucede si un RDD no cabe en la memoria en Spark? [duplicar

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares