Resultados de la búsqueda a petición "bigdata"

[/imgs/UYyNH.jpg] MatrizM es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Entonces una columna representa un documento. Ahora dice que cada raya (b en ...

hadoop hbase rdbms

3 la respuesta

¿Qué se debe considerar antes de elegir hbase?

Soy muy nuevo en el espacio de big data. Recibimos sugerencias del equipo de que deberíamos usar hbase en lugar de RDBMS para un alto rendimiento. No tenemos idea de lo que debe / debe considerarse antes de cambiar RDMS a hbase. ¿Algunas ideas?

apache-spark-sql apache-spark sql in-memory-database

2 la respuesta

¿Por qué Spark SQL considera que el soporte de índices no es importante?

Citando los Spark DataFrames,Conjuntos de datos y manual de SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Un puñado de optimizaciones de Hive aún no están incluidas en Spark. Algunos ...

hadoop mapreduce java serialization

1 la respuesta

Cómo serializar objetos en hadoop (en HDFS)

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

hadoop cloudera apache-spark

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

apache-spark machine-learning pyspark one-hot-encoding

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

database python pandas

1 la respuesta

¿Cómo soltar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargar en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo de esta manera: chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', ...

scala distributed-computing k-means apache-spark

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

python distributed-computing algorithm apache-spark

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

scala apache-spark rdd hdfs

2 la respuesta

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

Tengo un RDD cuyos elementos son de tipo (Long, String). Por alguna razón, quiero guardar todo el RDD en el HDFS, y luego también leer ese RDD en un programa Spark. ¿Es posible hacer eso? Y si es así, ¿cómo?

Página 5 de 13

3 456 7

Resultados de la búsqueda a petición "bigdata"

Confusión en hashing utilizado por LSH

¿Qué se debe considerar antes de elegir hbase?

¿Por qué Spark SQL considera que el soporte de índices no es importante?

Etiquetas Populares

Cómo serializar objetos en hadoop (en HDFS)

Cómo verificar la versión de Spark [cerrado]

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

¿Cómo soltar filas duplicadas usando pandas en un archivo de datos grandes?

Spark :: KMeans llama a takeSample () dos veces?

Preparar mis bigdata con Spark a través de Python

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares