Resultados de la búsqueda a petición "hadoop"
java.lang.OutOfMemoryError: no se pueden adquirir 100 bytes de memoria, obtuve 0
Invoco Pyspark con Spark 2.0 en modo local con el siguiente comando: pyspark --executor-memory 4g --driver-memory 4gEl marco de datos de entrada se está leyendo desde un archivo tsv y tiene 580 K x 28 columnas. Estoy haciendo algunas operaciones ...
Cómo optimizar el escaneo de 1 archivo / tabla enorme en Hive para confirmar / verificar si el punto lat largo está contenido en una forma de geometría wkt
Actualmente estoy tratando de asociar cada ping largo lat de un dispositivo a su código postal. He desnormalizado los datos de ping del dispositivo de longitud larga y he creado una tabla de unión de productos cruzados / producto cartesiano en ...
¿Cómo equilibrar mis datos en las particiones?
Editar: La respuesta ayuda, pero describí mi solución en:problema de memoria en Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Tengo un RDD con particiones 202092, que lee un conjunto de datos creado por otros. Puedo ...
Ejecutar hilo con chispa no funciona con Java 8
Tengo un clúster con 1 maestro y 6 esclavos que usa la versión preconstruida de hadoop 2.6.0 y spark 1.6.2. Estaba ejecutando hadoop MR y trabajos sin problemas con openjdk 7 instalado en todos los nodos. Sin embargo, cuando actualicé openjdk 7 a ...
Spark en Windows: ¿qué es exactamente winutils y por qué lo necesitamos?
¡Soy curioso! Que yo sepa, HDFS necesita procesos de nodo de datos para ejecutarse, y es por eso que solo funciona en servidores. Sin embargo, Spark puede ejecutarse localmente, pero necesita winutils.exe, que es un componente de Hadoop. Pero, ...
¿Cuáles son los formatos de archivo de secuencia y los formatos de parquet en colmena?
¿Puede explicar con un ejemplo en tiempo real dónde usar el archivo de secuencia y el archivo de parquet?
¿Cómo lograr la paginación en HBase?
Soy nuevo en Hbase y necesito implementar la paginación usando Java con Jersey y Hbase como mi base de datos. Necesito ayuda, ¿cómo puedo lograr la paginación con Hbase ya que los datos se distribuirán entre varias regiones? Quiero mostrar 1000 ...
¿Cómo funciona Spark en YARN para el uso de memoria Python?
Después de leer la documentación, no entiendo cómo funciona Spark en YARN para el consumo de memoria de Python. ¿Cuenta paraspark.executor.memory, spark.executor.memoryOverhead ¿o donde? En particular, tengo una aplicación PySpark ...
Cargue datos en Hive con delimitador personalizado
Estoy tratando de crear una tabla interna (administrada) en la colmena que pueda almacenar mis datos de registro incrementales. La tabla dice así: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS ...
Obtenga archivos que se crearon en los últimos 5 minutos en hadoop usando el script de shell
Tengo archivos en HDFS como: drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639064 drwxrwx--- - root supergroup 0 2016-08-19 ...