Resultados de la búsqueda a petición "bigdata"

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

2 la respuesta

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

1 la respuesta

agregación usando la función ffdfdply en R

6 la respuesta

Aleatorio externo: barajando gran cantidad de datos de la memoria

3 la respuesta

Rff paquete ffsave 'zip' no encontrado

3 la respuesta

Eliminar unidades duplicadas del marco de datos

Estoy trabajando en un gran conjunto de datos con n covariables. Muchas de las filas son duplicadas. Para identificar los duplicados necesito usar un subconj...

0 la respuesta

R foverlaps equivalente en Python

Estoy tratando de reescribir un código R en Python y no puedo pasar un bit de código en particular. He encontrado elfoverlaps funcionar en R para ser muy útil al realizar una unión basada en el tiempo, pero no he encontrado nada que funcione tan ...

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

1 la respuesta

¿Por qué Kafka tan rápido [cerrado]

Si tengo el mismo hardware, para usar Kafka o nuestra solución actual (ServiceMix / Camel). ¿Hay alguna diferencia? ¿Kafka puede manejar datos "más grandes" que él? ¿Por qué? ¿Hay un artículo para hablar sobre qué tan rápido podría ser? Pero ...

2 la respuesta

Funciones para crear y remodelar big data en R usando el paquete FF