Resultados de la búsqueda a petición "bigdata"

2 la respuesta

¿Es Spark's KMeans incapaz de manejar bigdata?

KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

1 la respuesta

Mapa inmutable de Scala lento

Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

3 la respuesta

Cargue datos en Hive con delimitador personalizado

Estoy tratando de crear una tabla interna (administrada) en la colmena que pueda almacenar mis datos de registro incrementales. La tabla dice así: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS ...

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

3 la respuesta

¿Qué se debe considerar antes de elegir hbase?

Soy muy nuevo en el espacio de big data. Recibimos sugerencias del equipo de que deberíamos usar hbase en lugar de RDBMS para un alto rendimiento. No tenemos idea de lo que debe / debe considerarse antes de cambiar RDMS a hbase. ¿Algunas ideas?

1 la respuesta

Cómo serializar objetos en hadoop (en HDFS)

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

2 la respuesta

¿Cuántas particiones crea Spark cuando se carga un archivo desde el bucket de S3?

Si el archivo se carga desde HDFS de forma predeterminada, spark crea una partición por bloque. Pero, ¿cómo decide chispa las particiones cuando se carga un archivo desde el depósito S3?

1 la respuesta

Confusión en hashing utilizado por LSH

[/imgs/UYyNH.jpg] MatrizM es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Entonces una columna representa un documento. Ahora dice que cada raya (b en ...