Resultados de la búsqueda a petición "bigdata"

1 la respuesta

Cómo serializar objetos en hadoop (en HDFS)

Tengo un HashMap <String, ArrayList <Integer>>. Quiero serializar mi objeto HashMap (hmap) a la ubicación HDFS y luego deserializarlo en Mapper and Reducers para usarlo. Para serializar mi objeto HashMap en HDFS, utilicé el código de ...

1 la respuesta

Spark :: KMeans llama a takeSample () dos veces?

Tengo muchos datos y he experimentado con particiones de cardinalidad [20k, 200k +]. Yo lo llamo así: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

1 la respuesta

Mapa inmutable de Scala lento

Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

1 la respuesta

¿Cómo soltar filas duplicadas usando pandas en un archivo de datos grandes?

Tengo un archivo csv que es demasiado grande para cargar en la memoria. Necesito eliminar filas duplicadas del archivo. Así que sigo de esta manera: chunker = pd.read_table(AUTHORS_PATH, names=['Author ID', 'Author name'], encoding='utf-8', ...

1 la respuesta

Preparar mis bigdata con Spark a través de Python

Mis 100 m de tamaño, datos cuantificados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado deseado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Entonces, lo que quiero es transformar los datos para agrupar ...

1 la respuesta

¿Por qué OneHotEncoder de Spark elimina la última categoría de forma predeterminada?

Me gustaría entender lo racional detrás del OneHotEncoder de Spark que deja caer la última categoría por defecto. Por ejemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

1 la respuesta

Clúster Zookeeper en AWS

Estoy tratando de configurar un clúster zookeeper en 3 máquinas AWS ec2, pero continuamente obtengo el mismo error: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

1 la respuesta

Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL

Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...