Resultados de la búsqueda a petición "bigdata"

2 la respuesta

Resta todos los pares de valores de dos matrices

Tengo dos vectoresv1 yv2. Me gustaría restar cada valor dev2 de cada valor dev1 y almacenar los resultados en otro vector. También me gustaría trabajar con vectores muy grandes (por ejemplo, tamaño 1e6), por lo que creo que debería usar numpy ...

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

1 la respuesta

Cargar matriz JSON en Pig

Tengo un archivo json con el siguiente formato [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...

3 la respuesta

¿Cómo funciona la función mapPartitions de pyspark?

Así que estoy tratando de aprender Spark usando Python (Pyspark). Quiero saber como funciona la funcionmapPartitions trabajo. Esa es la entrada que toma y la salida que da. No pude encontrar ningún ejemplo adecuado de Internet. Digamos que tengo ...

2 la respuesta

Qué función en spark se usa para combinar dos RDD por teclas

Digamos que tengo los siguientes dos RDD, con los siguientes valores de pares de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Ahora, quiero unirlos por valores ...

1 la respuesta

Calcule la matriz de distancia euclidiana usando un objeto big.matrix

Tengo un objeto de clasebig.matrix enR con dimensión778844 x 2. Los valores son todos enteros (kilómetros). Mi objetivo es calcular la matriz de distancia euclidiana usando elbig.matrix y como resultado un objeto de clasebig.matrix. Me gustaría ...

2 la respuesta

R, problema con una agrupación jerárquica después de un análisis de correspondencia múltiple

Quiero agrupar un conjunto de datos (600000 observaciones), y para cada grupo quiero obtener los componentes principales. Mis vectores están compuestos por un correo electrónico y por 30 variables cualitativas. Cada variable cuantitativa tiene 4 ...

2 la respuesta

¿Cómo puedo calcular la mediana exacta con Apache Spark?

Estapágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contiene algunas funciones estadísticas (media, stdev, varianza, etc.) pero no contiene la mediana. ¿Cómo puedo calcular la mediana exacta? Gracias

3 la respuesta

¿Cómo determino el tamaño de mis tablas de HBase? ¿Hay algún comando para hacerlo?

Tengo varias tablas en mi shell de Hbase que me gustaría copiar en mi sistema de archivos. Algunas mesas superan los 100 gb. Sin embargo, solo me quedan 55 gb de espacio libre en mi sistema de archivos local. Por lo tanto, me gustaría saber el ...

2 la respuesta

escalabilidad de chispa: ¿qué estoy haciendo mal?

Estoy procesando datos con chispa y funciona con un día de datos (40G) pero falla conOOMen una semana de datos: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...