Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo conectar HBase y Spark usando Python?

Tengo una tarea vergonzosamente paralela para la cual uso Spark para distribuir los cálculos. Estos cálculos están en Python, y uso PySpark para leer y preprocesar los datos. Los datos de entrada a mi tarea se almacenan en ...

2 la respuesta

¿Es Spark's KMeans incapaz de manejar bigdata?

KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...

3 la respuesta

Cómo usar la palabra clave IZQUIERDA y DERECHA en SPARK SQL

Soy nuevo en provocar SQL, En MS SQL, tenemos la palabra clave IZQUIERDA,LEFT(Columnname,1) in('D','A') then 1 else 0. Cómo implementar lo mismo en SPARK SQL. Amablemente guiame

1 la respuesta

Extraer partición de tabla de colmena en Spark - java

¿Hay alguna forma en Spark para extraer solo los nombres de columna de partición? La solución que estoy usando es ejecutar "show extended table like table_name" utilizandoHiveContext

1 la respuesta

¿Por qué desaparecen mis registros de nivel de aplicación cuando se ejecutan en oozie?

Estoy usando oozie en el entorno CDH5. También estoy usando la consola web oozie. No puedo ver ninguno de los registros de mi aplicación. Puedo ver registros de hadoop, registros de chispas, etc. pero no veo registros específicos de la ...

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...

3 la respuesta

realizar unirse en múltiples DataFrame en chispa

Tengo 3dataframes generados a partir de 3 procesos diferentes. Cada marco de datos tiene columnas del mismo nombre. Mi dataframe se ve así id val1 val2 val3 val4 1 null null null null 2 A2 A21 A31 A41 id val1 val2 val3 val4 1 B1 B21 B31 B41 2 ...

1 la respuesta

¿Cómo Spark lee el archivo con subrayado al comienzo del nombre del archivo?

Cuando uso Spark para analizar archivos de registro, noto que si el primer carácter del nombre de archivo es_ , el resultado estará vacío. Aquí está mi código de prueba: SparkSession spark = SparkSession .builder() ...

1 la respuesta

¿Cómo usar Spark-Scala para descargar un archivo CSV de la web?

mundo, ¿Cómo usar Spark-Scala para descargar un archivo CSV de la web y cargar el archivo en un DataFrame spark-csv? Actualmente dependo de curl en un comando de shell para obtener mi archivo CSV. Aquí está la sintaxis que quiero mejorar: /* ...

3 la respuesta

SparkR de Rstudio - da un error en invokeJava (isStatic = TRUE, className, methodName, ...):

Estoy usando RStudio. Después de crear la sesión, si trato de crear un marco de datos utilizando datos R, da error. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") Sys.setenv(HADOOP_HOME = "E:/winutils") ...