Cassandra Base de datos abrumado?

Question

Jan 19, 2015, 01:00 PM

Cassandra Base de datos abrumado?

Creé una tabla en una base de datos cassandra con la siguiente consulta:

CREATE TABLE table(
  num int,
  part_key int,
  val1 int,
  val2 float,
  val3 text,
  ...,
  PRIMARY KEY((part_key),num)
);

La tabla almacena datos de un dispositivo técnico. La clave de partición part_key es 1 para cada registro, porque quiero ejecutar consultas de rango en un solo servidor. Sé que este es un mal caso de uso para Cassandra, pero necesito hacer esto para comparar.

La clave primaria num es el número del registro (de 1 a 8.000.000).

Hay como otros 400 valores por registro que son flotante, int y tipo de texto. Inserté 8.000.000 de registros en esta tabla (43 GB) y quería ejecutar mis consultas como:

SELECT num, val1, val45, val90 
FROM ks.table 
WHERE part_key=1 AND num>9999 AND num<20001;

Ejecuté la consulta en cql-shell y obtuve la "operación agotada". Así que cambié read_request_timeout_in_ms y range_request_timeout_in_ms en el archivo cassandra.yaml a 60000 (2 minutos).

Al ejecutar la consulta nuevamente recibí el "Error 10054: la conexión existente fue cerrada por el host remoto" después de 5 minutos. El servicio Datastax Cassandra Community Server 2.0.11 ya no se estaba ejecutando en el servidor.

Reinicié el servicio, lo intenté nuevamente y el servicio se bloqueó nuevamente. Ni siquiera pude reiniciar el servicio y tuve que reiniciar el servidor. También probé esto usando el controlador cpp Cassandra y tampoco pude ejecutar esta consulta.

Pequeñas consultas como

... AND num<1000;

Todavía son posibles.

Mi pregunta es: ¿hice algo mal? Sé que Cassandra es mejor con más nodos, pero pensé que Cassandra solo necesitaría más tiempo. ¿Es posible que Cassandra no pueda ejecutar una consulta como esa?

¡Gracias!

El servidor:

Intel (R) Xeon (R) CPU E5504 @ 2.00GHz 2.00GHz (2 procesadores) / 16GB RAM

Utilización de la CPU: 50% - 60% y después de 15 segundos alrededor del 30% / RAM: 2,9 GB todo el tiempo

EDITAR:

Mi espacio de teclas Cassandra ahora tiene 60 GB y pequeñas consultas como

... AND num<10;

e incluso los insertos devuelven el tiempo de espera. A veces el servicio falla ... Por favor, ¿alguien que tenga una idea puede explicar eso? Una respuesta dice que un nodo con 43 GB no es lo mismo en un clúster con más nodos que en mi clúster con un solo nodo. ¿Alguien puede explicar esto?

¡Gracias!