Resultados de la búsqueda a petición "bigdata"
jq: filtro de flujo en varios valores de la misma clave
Estoy procesando un JSON muy grande en el que necesito filtrar los objetos JSON internos utilizando el valor de una clave. Mi JSON tiene el siguiente ...
l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]
Esta pregunta es un duplicado exacto de: Importar archivo de ancho fijo de Park Gran cantidad de columnas que provocan un alto tiempo de ...
¿Cómo insisto en HDFS con chispa?
Tengo datos particionados en el HDFS. En algún momento decido actualizarlo. El algoritmo es: Lee los nuevos datos de un tema kafka. Encuentre nuevos nombres de partición de datos. Cargue los datos de las particiones con estos nombres que se ...
Datastore para grandes datos de simulación de astrofísica
Soy un estudiante graduado en astrofísica. Ejecuto grandes simulaciones usando códigos desarrollados principalmente por otros durante una década más o menos. Para ver ejemplos de estos códigos, puede consultar ...
Cambiar de Mysql a MongoDB 200 millones de filas
Estamos intentando pasar de mysql a mongodb. la estructura de mysql es id_src int id_dest int clave única: id_src, id_dest Son unos 200 millones de filas en mysql data ejemplar: {id_src, id_dest} {1,2} {1,3} {1,10} {2,3} {2,10} {4,3} ...
Lectura de archivos almacenados en C ++
Me pregunto si leer un archivo de texto grande línea por línea (por ejemplo, std :: getline o fgets) puede almacenarse con un tamaño de búfer de lectura predefinido, o si uno debe usar funciones especiales de bytewise. Me refiero a leer ...
acelerar el procesamiento de grandes conjuntos de resultados usando rmongodb
Estoy usando rmongodb para obtener todos los documentos de una colección en particular. Funciona pero estoy trabajando con millones de documentos pequeños, p...
importar datos Json complejos a la colmena
Se requiere un poco de alimentación con cuchara, cómo importar json complejos en la colmena. Json archivo en el formato de:
Trabajando con big data en python y numpy, no hay suficiente ram, ¿cómo guardar resultados parciales en el disco?
Estoy tratando de implementar algoritmos para datos de 1000 dimensiones con 200k + puntos de datos en python. Quiero usar las bibliotecas numpy, scipy, sklea...