Resultados de la búsqueda a petición "bigdata"
Cargue datos en Hive con delimitador personalizado
Estoy tratando de crear una tabla interna (administrada) en la colmena que pueda almacenar mis datos de registro incrementales. La tabla dice así: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS ...
Factor desequilibrado de KMeans?
Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...
Mapa inmutable de Scala lento
Tengo un código cuando creo un mapa como: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapLuego uso este mapa para crear mi objeto: case class MyObject(val attribute1: String, val attribute2: ...
¿Es Spark's KMeans incapaz de manejar bigdata?
KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...
Clúster Zookeeper en AWS
Estoy tratando de configurar un clúster zookeeper en 3 máquinas AWS ec2, pero continuamente obtengo el mismo error: 2016-10-19 16:30:23,177 [myid:2] - WARN [QuorumPeer[myid=2]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 3 ...
Leer n líneas de un archivo de texto grande
El archivo más pequeño que tengo tiene> 850k líneas y cada línea tiene una longitud desconocida. El objetivo es leern líneas de este archivo en el navegador. Leerlo completamente no va a suceder. Aquí está el HTML<input type="file" name="file" ...
Kafka tema por productor
Digamos que tengo múltiples dispositivos. Cada dispositivo tiene diferentes tipos de sensores. Ahora quiero enviar los datos de cada dispositivo para cada sensor a kafka. Pero estoy confundido acerca de los temas kafka. Para procesar estos datos ...
Cómo manejar el error y no comprometerse cuando use Kafka Streams DSL
Para Kafka Streams, si usamos una API de procesador de nivel inferior, podemos controlar la confirmación o no. Entonces, si ocurren problemas en nuestro código, y no queremos confirmar este mensaje. En este caso, Kafka reenviará este mensaje ...
R foverlaps equivalente en Python
Estoy tratando de reescribir un código R en Python y no puedo pasar un bit de código en particular. He encontrado elfoverlaps funcionar en R para ser muy útil al realizar una unión basada en el tiempo, pero no he encontrado nada que funcione tan ...
¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?
Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...