Resultados de la búsqueda a petición "apache-spark-sql"
SparkSQL MissingRequirementError al registrar la tabla
Soy un novato en Scala y Apache Spark y estoy tratando de usar Spark SQL. Después de clonar elrepo [https://github.com/apache/spark]Comencé la chispa escribiendobin/spark-shell y ejecuta lo siguiente: val sqlContext = new ...
Contar el número de filas duplicadas en SPARKSQL
Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...
Cómo crear una fila de una lista o matriz en Spark usando Scala
Estoy tratando de crear una fila (org.apache.spark.sql.catalyst.expressions.Row) basado en la entrada del usuario. No puedo crear una fila al azar. ¿Existe alguna funcionalidad para crear una fila?List oArray. Por ejemplo, si tengo un.csv ...
La CLI de Spark-sql usa solo 1 ejecutor al ejecutar la consulta
Voy a usar spark-sql cli para reemplazar el shell hive cli, y ejecuto el spark-sql cli siguiendo el comando, (Estamos usando en el clúster Hadoop de hilados, el hive-site.xml ya copiado a / conf) .> spark-sql Entonces el shell se abre y funciona ...
¿Cómo convertir la fila de un Scala DataFrame en clase de caso de la manera más eficiente?
Una vez que tengo en Spark alguna clase de fila, ya sea Dataframe o Catalyst, quiero convertirla en una clase de caso en mi código. Esto se puede hacer haciendo coincidir someRow match {case Row(a:Long,b:String,c:Double) => ...
Insertar datos analíticos de Spark a Postgres
Tengo la base de datos Cassandra desde la cual analicé los datos usando SparkSQL a través de Apache Spark. Ahora quiero insertar esos datos analizados en PostgreSQL. ¿Hay alguna manera de lograr esto directamente, aparte de usar el controlador ...
Consultar Spark SQL DataFrame con tipos complejos
¿Cómo puedo consultar un RDD con tipos complejos como mapas / matrices? por ejemplo, cuando estaba escribiendo este código de prueba: case class Test(name: String, map: Map[String, String]) val map = Map("hello" -> "world", "hey" -> "there") val ...
Error intermitente de Hiveop / Hadoop: no se puede mover el origen al destino
Ha habido algunos artículos SO sobreHive/Hadoop Error "No se puede mover la fuente". Muchos de ellos apuntan a un problema de permiso. Sin embargo, en mi sitio vi el mismo error pero estoy bastante seguro de que no está relacionado con un ...
Cómo componer el nombre de la columna usando el valor de otra columna para withColumn en Scala Spark
Estoy tratando de agregar una nueva columna a unDataFrame. El valor de esta columna es el valor de otra columna cuyo nombre depende de otras columnas de la misma.DataFrame. Por ejemplo, dado esto: +---+---+----+----+ | A| B| A_1| B_2| ...
Pseudocolumna en Spark JDBC
Estoy usando una consulta para obtener datos de MYSQL de la siguiente manera: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...