Resultados de la búsqueda a petición "bigdata"

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

2 la respuesta

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...

3 la respuesta

agrupación de conjuntos de datos muy grandes en R

Tengo un conjunto de datos que consta de 70,000 valores numéricos que representan distancias que van desde 0 hasta 50, y quiero agrupar estos números; sin embargo, si estoy probando el enfoque de agrupamiento clásico, entonces tendría que ...

4 la respuesta

Cargue una pequeña muestra aleatoria de un gran archivo csv en el marco de datos R

El archivo csv a procesar no cabe en la memoria. ¿Cómo se pueden leer ~ 20K líneas aleatorias para hacer estadísticas básicas en el marco de datos seleccionado?

1 la respuesta

R: expandir un factor R en columnas ficticias para cada nivel de factor

Tengo un marco de datos bastante grande en R con dos columnas. Estoy tratando de hacer deCode columna (factor escriba con 858 niveles) las variables ficticias. El problema es que R Studio siempre se bloquea cuando intento hacer eso. > str(d) ...

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

2 la respuesta

¿Cómo pasar Hive conf variable en hive udf?

Quiero pasar la variable conf de colmena a UDF de colmena. a continuación hay un fragmento de código. hive -f ../hive/testHive.sql -hivevar testArg=${testArg}A continuación se muestra la colmena UDF llamada. select ...

2 la respuesta

No escribir datos de compensación al cuidador del zoológico en kafka-storm

Estaba configurando un clúster de tormenta para calcular las tendencias en tiempo real y otras estadísticas, sin embargo, tengo algunos problemas al introducir la función de "recuperación" en este proyecto, al permitir el desplazamiento que fue ...

2 la respuesta

Exportar gran cantidad de datos de Cassandra a CSV

Estoy usando Cassandra 2.0.9 para almacenar grandes cantidades de datos, digamos 100 Gb, en una familia de columnas. Me gustaría exportar estos datos a CSV de manera rápida. Lo intenté: sstable2json- produce archivos json bastante grandes que ...

4 la respuesta

Django + Postgres + Series de tiempo grandes

Estoy explorando un proyecto con datos de series de tiempo grandes, en su mayoría incompresibles, y me pregunto si Django + Postgres con SQL sin procesar es la decisión correcta. Tengo datos de series de tiempo que son ~ 2K objetos / hora, cada ...