Resultados de la búsqueda a petición "bigdata"

hadoop apache-spark

2 la respuesta

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...

machine-learning cluster-analysis r data-mining

3 la respuesta

agrupación de conjuntos de datos muy grandes en R

Tengo un conjunto de datos que consta de 70,000 valores numéricos que representan distancias que van desde 0 hasta 50, y quiero agrupar estos números; sin embargo, si estoy probando el enfoque de agrupamiento clásico, entonces tendría que ...

r csv random dataframe

4 la respuesta

Cargue una pequeña muestra aleatoria de un gran archivo csv en el marco de datos R

El archivo csv a procesar no cabe en la memoria. ¿Cómo se pueden leer ~ 20K líneas aleatorias para hacer estadísticas básicas en el marco de datos seleccionado?

r dummy-data model.matrix categorical-data

1 la respuesta

R: expandir un factor R en columnas ficticias para cada nivel de factor

Tengo un marco de datos bastante grande en R con dos columnas. Estoy tratando de hacer deCode columna (factor escriba con 858 niveles) las variables ficticias. El problema es que R Studio siempre se bloquea cuando intento hacer eso. > str(d) ...

text-mining machine-learning cosine-similarity data-mining

1 la respuesta

¿Por qué dos vectores no es similitud pero el resultado es 1?

Estoy usando la fórmula de similitud de coseno para calcular la similitud entre dos vectores. Probé dos vectores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

hadoop hive

2 la respuesta

¿Cómo pasar Hive conf variable en hive udf?

Quiero pasar la variable conf de colmena a UDF de colmena. a continuación hay un fragmento de código. hive -f ../hive/testHive.sql -hivevar testArg=${testArg}A continuación se muestra la colmena UDF llamada. select ...

apache-kafka apache-zookeeper apache-storm

2 la respuesta

No escribir datos de compensación al cuidador del zoológico en kafka-storm

Estaba configurando un clúster de tormenta para calcular las tendencias en tiempo real y otras estadísticas, sin embargo, tengo algunos problemas al introducir la función de "recuperación" en este proyecto, al permitir el desplazamiento que fue ...

cassandra cassandra-2.0 csv

2 la respuesta

Exportar gran cantidad de datos de Cassandra a CSV

Estoy usando Cassandra 2.0.9 para almacenar grandes cantidades de datos, digamos 100 Gb, en una familia de columnas. Me gustaría exportar estos datos a CSV de manera rápida. Lo intenté: sstable2json- produce archivos json bastante grandes que ...

postgresql django heroku python

4 la respuesta

Django + Postgres + Series de tiempo grandes

Estoy explorando un proyecto con datos de series de tiempo grandes, en su mayoría incompresibles, y me pregunto si Django + Postgres con SQL sin procesar es la decisión correcta. Tengo datos de series de tiempo que son ~ 2K objetos / hora, cada ...

Página 8 de 13

6 789 10

Resultados de la búsqueda a petición "bigdata"

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

agrupación de conjuntos de datos muy grandes en R

Etiquetas Populares

Cargue una pequeña muestra aleatoria de un gran archivo csv en el marco de datos R

R: expandir un factor R en columnas ficticias para cada nivel de factor

¿Por qué dos vectores no es similitud pero el resultado es 1?

¿Cómo pasar Hive conf variable en hive udf?

No escribir datos de compensación al cuidador del zoológico en kafka-storm

Exportar gran cantidad de datos de Cassandra a CSV

Django + Postgres + Series de tiempo grandes

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares