Resultados de la búsqueda a petición "hadoop"
Error: java.io.IOException: valor incorrecto clase: clase org.apache.hadoop.io.Text no es clase Myclass
Tengo mi mapeador y reductores de la siguiente manera. Pero estoy recibiendo algún tipo de excepción extraña. No puedo entender por qué está lanzando semejan...
Clase no encontrada Excepción en el trabajo de conteo de palabras de Mapreduce
Estoy tratando de ejecutar un trabajo de wordcount en hadoop. Pero siempre obtengo una excepción de clase no encontrada. Estoy publicando la clase que escrib...
¿Hay un equivalente a `pwd` en hdfs?
Traté de hacer
Cómo listar solo los nombres de archivos en HDFS
Me gustaría saber si hay algún comando / expresión para obtener solo el nombre del archivo en hadoop. Necesito buscar solo el nombre del archivo, cuando lo haga
Sqoop: división de datos
Sqoop puede importar datos de múltiples tablas usando--query cláusula pero no está claro si puede importar debajo de la consulta. Seleccione deptid, avg (salario) del grupo emp por deptid Otra pregunta es importación sqoop --connect jdbc: ...
PySpark: lea, asigne y reduzca desde un archivo de texto de registro multilínea con newAPIHadoopFile
Estoy intentando resolver un problema que es similar aesta publicación [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Mis datos originales son un archivo de texto que contiene ...
Combinar archivos CSV de salida de Spark con un solo encabezado
Quiero crear una tubería de procesamiento de datos en AWS para eventualmente usar los datos procesados para Machine Learning. Tengo un script Scala que toma datos sin procesar de S3, los procesa y los escribe en HDFS o incluso S3 conSpark-CSV. ...