Resultados de la búsqueda a petición "apache-spark-sql"

3 la respuesta

¿Cuál es la diferencia entre Apache Spark SQLContext y HiveContext?

¿Cuáles son las diferencias entre Apache Spark SQLContext y HiveContext? Algunas fuentes dicen que dado que HiveContext es un superconjunto de SQLContext, los desarrolladores siempre deben usar HiveContext, que tiene más funciones que ...

6 la respuesta

¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?

Tengo un Spark DataFrame (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ningún éxito: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

2 la respuesta

Usando groupBy en Spark y volviendo a un DataFrame

Tengo dificultades cuando trabajo con marcos de datos en chispa con Scala. Si tengo un marco de datos que deseo extraer una columna de entradas únicas, cuando usogroupBy No me devuelven un marco de datos. Por ejemplo, tengo unDataFrame llamados ...

1 la respuesta

Rango de cálculo de una fila

Quiero clasificar la identificación del usuario en función de un campo. Para el mismo valor del campo, el rango debe ser el mismo. Esa información está en la tabla Hive. p.ej. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4¿Cómo puedo ...

2 la respuesta

El marco de datos de Spark transforma varias filas en una columna

Soy un novato para encender, y quierotransformarabajomarco de datos de origen (cargar desde archivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | ...

4 la respuesta

value toDF no es miembro de org.apache.spark.rdd.RDD

Excepción val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person]Aquí estáTestApp.scala archivo: package main.scala import ...

1 la respuesta

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...

1 la respuesta

Atributos de referencia de Spark SQL de UDT

Estoy tratando de implementar un UDT personalizado y poder hacer referencia a él desde Spark SQL (como se explica en el documento técnico de Spark SQL, sección 4.4.2). El ejemplo real es tener un UDT personalizado respaldado por una estructura ...

1 la respuesta

Elección de elementos aleatorios de un objeto Spark GroupedData

Soy nuevo en el uso de Spark en Python y no he podido resolver este problema: después de ejecutargroupBy en unpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como puedes elegirN ¿Muestras aleatorias de cada ...

3 la respuesta

Spark, Scala, DataFrame: crea vectores de características

tengo unDataFrame que se parece a seguir: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2El número de categorías distintas es 10, y me gustaría crear un vector de características ...