Resultados de la búsqueda a petición "bigdata"

KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...

machine-learning apache-spark k-means pyspark

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

scala functional-programming performance java

1 la respuesta

Mapa inmutable de Scala lento

Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...

scala distributed-computing k-means apache-spark

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

hadoop loaddata hive

3 la respuesta

Cargue datos en Hive con delimitador personalizado

Estoy tratando de crear una tabla interna (administrada) en la colmena que pueda almacenar mis datos de registro incrementales. La tabla dice así: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS ...

hadoop cloudera apache-spark

3 la respuesta

Cómo verificar la versión de Spark [cerrado]

Quiero verificar la versión de chispa en cdh 5.7.0. He buscado en Internet pero no puedo entender. Por favor ayuda. Gracias

hadoop hbase rdbms

3 la respuesta

¿Qué se debe considerar antes de elegir hbase?

Soy muy nuevo en el espacio de big data. Recibimos sugerencias del equipo de que deberíamos usar hbase en lugar de RDBMS para un alto rendimiento. No tenemos idea de lo que debe / debe considerarse antes de cambiar RDMS a hbase. ¿Algunas ideas?

hadoop mapreduce java serialization

1 la respuesta

Cómo serializar objetos en hadoop (en HDFS)

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

apache-spark rdd amazon-s3 hadoop

2 la respuesta

¿Cuántas particiones crea Spark cuando se carga un archivo desde el bucket de S3?

Si el archivo se carga desde HDFS de forma predeterminada, spark crea una partición por bloque. Pero, ¿cómo decide chispa las particiones cuando se carga un archivo desde el depósito S3?

hash python locality-sensitive-hash nearest-neighbor

1 la respuesta

Confusión en hashing utilizado por LSH

[/imgs/UYyNH.jpg] MatrizM es la matriz de firmas, que se produce a través de Minhashing de los datos reales, tiene documentos como columnas y palabras como filas. Entonces una columna representa un documento. Ahora dice que cada raya (b en ...

Página 4 de 13

2 345 6

Resultados de la búsqueda a petición "bigdata"

¿Es Spark's KMeans incapaz de manejar bigdata?

Factor desequilibrado de KMeans?

Mapa inmutable de Scala lento

Etiquetas Populares

Spark :: KMeans llama a takeSample () dos veces?

Cargue datos en Hive con delimitador personalizado

Cómo verificar la versión de Spark [cerrado]

¿Qué se debe considerar antes de elegir hbase?

Cómo serializar objetos en hadoop (en HDFS)

¿Cuántas particiones crea Spark cuando se carga un archivo desde el bucket de S3?

Confusión en hashing utilizado por LSH

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares