Resultados de la búsqueda a petición "bigdata"

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

scala distributed-computing k-means apache-spark

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

scala functional-programming performance java

1 la respuesta

Mapa inmutable de Scala lento

Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...

Etiquetas Populares

ff cfmail clr-hosting android-websettings cptbarplot fix assembly.load jasper-plugin setbounds concept clpb clique-problem ddd-repositories freopen redeploy mtu bounded-types rails-api ln ckan

machine-learning apache-spark k-means pyspark

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

database python pandas

1 la respuesta

¿Cómo soltar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargar en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo de esta manera: chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', ...

python distributed-computing algorithm apache-spark

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

apache-spark machine-learning pyspark one-hot-encoding

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

amazon-web-services apache-zookeeper amazon-ec2

1 la respuesta

Clúster Zookeeper en AWS

Estoy tratando de configurar un clúster zookeeper en 3 máquinas AWS ec2, pero continuamente obtengo el mismo error: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 ...

amazon-s3 parquet emr amazon-emr

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

apache-kafka apache-kafka-streams kafka-consumer-api

1 la respuesta

Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL

Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...

Página 3 de 13

1 234 5

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares