Resultados de la búsqueda a petición "hadoop"
¿Cómo convertir una tabla SQL de 500 GB en Apache Parquet?
Quizás esto esté bien documentado, pero me estoy confundiendo mucho sobre cómo hacerlo (hay muchas herramientas de Apache). Cuando creo una tabla SQL, creo la tabla usando los siguientes comandos: CREATE TABLE table_name( column1 datatype, ...
¿Hive tiene una función de división de cadena?
¿Estoy buscando una función de división de cadenas incorporada en Hive? P.ej. si String es A | B | C | D | E entonces quiero tener una función como matriz dividida (entrada de cadena, delimitador de caracteres) para que regrese [A, B, C, D, ...
¿Es posible leer y escribir Parquet usando Java sin depender de Hadoop y HDFS?
He estado buscando una solución a esta pregunta. Me parece que no hay forma de incrustar la lectura y escritura del formato Parquet en un programa Java sin tener que depender de HDFS y Hadoop. ¿Es esto correcto? Quiero leer y escribir en una ...
NLineInputFormat no funciona en Spark
Lo que quiero es básicamente que cada elemento de datos consista en 10 líneas. Sin embargo, con el siguiente código, cada elemento sigue siendo una línea. ¿Qué error estoy haciendo aquí? val conf = new SparkConf().setAppName("MyApp") ...
La renovación automática del ticket Kerberos no funciona desde Java
En mi aplicación de servidor, me estoy conectando al clúster Hadoop seguro de Kerberos desde mi aplicación java. En el inicio de la aplicación llamo UserGroupInformation.loginUserFromKeytabAndReturnUGI( ... );Estoy haciendo operaciones básicas ...
Unirse a la similitud usando Hadoop
Soy nuevo en hadoop. Me gustaría hacer algunos acercamientos contigo que se me ocurrieron. Problema: 2 conjuntos de datos: A y B. Ambos conjuntos de datos representan canciones: algunos atributos de nivel superior, títulos (1 ..), intérpretes (1 ...
Spark: número de rendimiento inconsistente en la escala del número de núcleos
Estoy haciendo una prueba de escala simple en Spark usando benchmark de clasificación: desde 1 núcleo, hasta 8 núcleos. Noto que 8 núcleos es más lento que 1 núcleo. //run spark using 1 core spark-submit --master local[1] --class ...
¿Cómo leer recursivamente archivos Hadoop desde el directorio usando Spark?
Dentro del directorio dado tengo muchas carpetas diferentes y dentro de cada carpeta tengo archivos Hadoop (part_001, etc.) directory -> folder1 -> part_001... -> part_002... -> folder2 -> part_001... ... Dado el directorio, ¿cómo puedo leer ...
prefijo coincidente más largo
En MySQL para hacer coincidir '12684041234' con el prefijo más largo que haría SELECT num_prefix FROM nums WHERE '12684041234' LIKE CONCAT(num_prefix, '%') AND LENGTH(num_prefix) = ( SELECT MAX(LENGTH(num_prefix)) FROM nums WHERE '12684041234' ...
Establecer Spark como motor de ejecución predeterminado para Hive
Hadoop 2.7.3, Spark 2.1.0 y Hive 2.1.1. Estoy tratando de establecer la chispa como motor de ejecución predeterminado para la colmena. Subí todos los frascos en $ SPARK_HOME / jars a la carpeta hdfs y copié los frascos scala-library, spark-core ...