Resultados de la búsqueda a petición "bigdata"

1 la respuesta

Confusión en hashing utilizado por LSH

[/imgs/UYyNH.jpg] MatrizM es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Entonces una columna representa un documento. Ahora dice que cada raya (b en ...

3 la respuesta

¿Qué se debe considerar antes de elegir hbase?

Soy muy nuevo en el espacio de big data. Recibimos sugerencias del equipo de que deberíamos usar hbase en lugar de RDBMS para un alto rendimiento. No tenemos idea de lo que debe / debe considerarse antes de cambiar RDMS a hbase. ¿Algunas ideas?

2 la respuesta

¿Por qué Spark SQL considera que el soporte de índices no es importante?

Citando los Spark DataFrames,Conjuntos de datos y manual de SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Un puñado de optimizaciones de Hive aún no están incluidas en Spark. Algunos ...

1 la respuesta

Cómo serializar objetos en hadoop (en HDFS)

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

1 la respuesta

¿Cómo soltar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargar en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo de esta manera: chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', ...

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

2 la respuesta

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

Tengo un RDD cuyos elementos son de tipo (Long, String). Por alguna razón, quiero guardar todo el RDD en el HDFS, y luego también leer ese RDD en un programa Spark. ¿Es posible hacer eso? Y si es así, ¿cómo?