Resultados de la búsqueda a petición "hadoop"

4 la respuesta

¿Cómo implementar el cálculo del valor propio con MapReduce / Hadoop?

Es posible porque PageRank era una forma de valor propio y por eso se introdujo MapReduce. Pero parece que hay problemas en la implementación real, como que cada computadora esclava tiene que mantener una copia de la matriz.

2 la respuesta

Cómo agregar datos a un archivo de parquet existente

Estoy usando el siguiente código para crear ParquetWriter y escribir registros en él. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord ...

3 la respuesta

Hadoop 0.20.2 Eclipse plugin no funciona completamente - no puede 'Ejecutar en Hadoop'

Acabo de terminar de instalar Hadoop 0.20.2 en Cygwin en Windows 7 con Eclipse Helios (3.6). Hadoop ahora está completamente iniciado, y estoy tratando de ejecutar una aplicación de prueba dentro de un proyecto de prueba MapReduce recién creado ...

1 la respuesta

Spark: Guardar RDD en una ruta ya existente en HDFS

Puedo guardar la salida RDD en HDFS consaveAsTextFilemétodo. Este método genera una excepción si la ruta del archivo ya existe. Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera ...

1 la respuesta

¿Cómo usar la API de Java para enviar el comando de shell hbase directamente como jdbc?

Cómo usar la API de Java para enviarcomando de shell hbasedirectamentecomo jdbc? public static void main(String args[]) { // get Connection to connect hbase Connection conn = ....; // hbase shell command String cmd = "get 't1','r1'"; Statement ...

2 la respuesta

Consulta más eficiente para evitar OutOfMemoryError en Hive

Estoy obteniendo un java.lang.OutOfMemoryError: límite de sobrecarga del GC excedido en Hive. Al buscar, descubrí que se debe a que el 98% de todo el tiempo de CPU del proceso va a la recolección de basura (lo que sea que eso signifique) ¿Es el ...

1 la respuesta

Hacia la limitación del gran RDD

Estoy leyendo muchas imágenes y me gustaría trabajar en un pequeño subconjunto de ellas para desarrollarlas. Como resultado, estoy tratando de entender cómo Chispa - chispear [/questions/tagged/spark]ypitón [/questions/tagged/python] podría hacer ...

2 la respuesta

Al usar --negotiate with curl, ¿se requiere un archivo de tabla de claves?

losdocumentación [http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/WebHDFS.html] Al describir cómo conectarse a un punto final seguro kerberos se muestra lo siguiente: curl -i --negotiate -u : ...

1 la respuesta

Acceda a archivos que comienzan con guión bajo en apache spark

Estoy tratando de acceder a archivos gz en s3 que comienzan con_ en Apache Spark. Desafortunadamente, spark considera que estos archivos son invisibles y regresaInput path does not exist: s3n:.../_1013.gz. Si elimino el guión bajo, encuentra el ...

1 la respuesta

¿Se pueden cargar variables hiveconf desde un archivo? (Separado del archivo HiveQL)

A menudo tengo un gran bloque de HiveQL que quiero ejecutar varias veces con diferentes configuraciones para algunas variables. Un ejemplo simple sería: set mindate='2015-01-01 00:00:00' set maxdate='2015-04-01 00:00:00' select * from my_table ...