Resultados de la búsqueda a petición "bigdata"

7 la respuesta

Error de tiempo de espera de operación en la consola cqlsh de cassandra

Tengo un clúster Cassandra de tres nodos y he creado una tabla que tiene más de 2,000,000 de filas. Cuando ejecuto esto (select count(*) from userdetails) consulta en cqlsh, recibí este error: OperationTimedOut: errores = {}, last_host = ...

2 la respuesta

Apache Drill vs Spark

Tengo cierta experiencia con Apache Spark y Spark-SQL. Recientemente encontré el proyecto Apache Drill. ¿Podría describirme cuáles son las ventajas / diferencias más significativas entre ellos? Ya he leidoAnálisis rápido de Hadoop ...

4 la respuesta

¿Cómo transformar una variable categórica en Spark en un conjunto de columnas codificadas como {0,1}?

Estoy tratando de realizar una regresión logística (LogisticRegressionWithLBFGS) con Spark MLlib (con Scala) en un conjunto de datos que contiene variables categóricas. Descubrí que Spark no pudo trabajar con ese tipo de variable. En R hay una ...

2 la respuesta

¿Encontrar lagunas en grandes secuencias de eventos?

Tengo alrededor de 1 millón de eventos en una base de datos PostgreSQL que tienen este formato: id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....Hay alrededor de 50,000 transmisiones ...

3 la respuesta

¿Cómo uso múltiples consumidores en Kafka?

Soy un nuevo estudiante que estudia Kafka y me he encontrado con algunos problemas fundamentales al comprender a múltiples consumidores con los que los artículos, documentaciones, etc. no han sido demasiado útiles hasta ahora. Una cosa que he ...

0 la respuesta

¿Por qué el rendimiento del consumidor de Kafka es lento?

Tengo un tema simple y un consumidor y productor de Kafka simple, usando la configuración predeterminada. El programa es muy simple, tengo dos hilos. En el productor, sigue enviando datos de 16 bytes. Y en el lado del consumidor, sigue ...

4 la respuesta

¿Cómo cargar una tabla grande en el cuadro para la visualización de datos?

Puedo conectar Tableau con mi base de datos, pero el tamaño de la tabla es realmente grande aquí. Cada vez que intento cargar la tabla en Tableau, se bloquea y no puedo encontrar ninguna solución. El tamaño de la tabla varía de 10 millones a 400 ...

1 la respuesta

PCA incremental en big data

Acabo de intentar usar el IncrementalPCA de sklearn.decomposition, pero arrojó un MemoryError al igual que el PCA y RandomizedPCA antes. Mi problema es que la matriz que estoy tratando de cargar es demasiado grande para caber en la RAM. En este ...

1 la respuesta

Cola de trabajo para la acción de la colmena en oozie

Tengo un flujo de trabajo oozie. Estoy enviando todas las acciones de la colmena con <name>mapred.job.queue.name</name> <value>${queueName}</value>Pero para algunas acciones de la colmena, el trabajo iniciado no está en la cola especificada; ...

1 la respuesta

¿Por qué Kafka tan rápido [cerrado]

Si tengo el mismo hardware, para usar Kafka o nuestra solución actual (ServiceMix / Camel). ¿Hay alguna diferencia? ¿Kafka puede manejar datos "más grandes" que él? ¿Por qué? ¿Hay un artículo para hablar sobre qué tan rápido podría ser? Pero ...