Resultados de la búsqueda a petición "bigdata"

3 la respuesta

Cargue datos en Hive con delimitador personalizado

Estoy tratando de crear una tabla interna (administrada) en la colmena que pueda almacenar mis datos de registro incrementales. La tabla dice así: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS ...

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

1 la respuesta

Mapa inmutable de Scala lento

Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...

2 la respuesta

¿Es Spark's KMeans incapaz de manejar bigdata?

KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...

1 la respuesta

Clúster Zookeeper en AWS

Estoy tratando de configurar un clúster zookeeper en 3 máquinas AWS ec2, pero continuamente obtengo el mismo error: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 ...

2 la respuesta

Leer n líneas de un archivo de texto grande

El archivo más pequeño que tengo tiene> 850k líneas y cada línea tiene una longitud desconocida. El objetivo es leern líneas de este archivo en el navegador. Leerlo completamente no va a suceder. Aquí está el HTML<input type="file" name="file" ...

2 la respuesta

Kafka tema por productor

Digamos que tengo múltiples dispositivos. Cada dispositivo tiene diferentes tipos de sensores. Ahora quiero enviar los datos de cada dispositivo para cada sensor a kafka. Pero estoy confundido acerca de los temas kafka. Para procesar estos datos ...

1 la respuesta

Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL

Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...

0 la respuesta

R foverlaps equivalente en Python

Estoy tratando de reescribir un código R en Python y no puedo pasar un bit de código en particular. He encontrado elfoverlaps funcionar en R para ser muy útil al realizar una unión basada en el tiempo, pero no he encontrado nada que funcione tan ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...