Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

obtenha o TopN de todos os grupos após o grupo usando o Spark DataFrame

Eu tenho um Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Como agrupar por usuário e retornarTopN itens de todos os grupos usando Scala? Código de similaridade usando ...

4 a resposta

O valor toDF não é membro de org.apache.spark.rdd.RDD

Exceção: val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person]Aqui estáTestApp.scala Arquivo: package main.scala import ...

6 a resposta

Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

1 a resposta

Classificação computacional de uma linha

Quero classificar o ID do usuário com base em um campo. Para o mesmo valor do campo, a classificação deve ser a mesma. Esses dados estão na tabela do Hive. por exemplo. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Como eu posso ...

1 a resposta

Filtragem Sparksql (selecionando com a cláusula where) com várias condições

Olá, tenho o seguinte problema: numeric.registerTempTable("numeric").Todos os valores que eu quero filtrar são cadeias de caracteres nulas literais e não valores N / A ou Nulos. Eu tentei estas três opções: numeric_filtered = ...

2 a resposta

O dataframe do Spark transforma várias linhas em coluna

Eu sou um novato para despertar, e querotransformarabaixodataframe de origem (carregar do arquivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| ...

1 a resposta

Atributos de referência do Spark SQL do UDT

Estou tentando implementar uma UDT personalizada e posso fazer referência a ela no Spark SQL (conforme explicado no whitepaper Spark SQL, seção 4.4.2). O exemplo real é ter um UDT personalizado suportado por uma estrutura de dados fora da pilha ...

1 a resposta

Escolhendo itens aleatórios de um objeto Spark GroupedData

Eu sou novo no Spark no Python e não consegui resolver esse problema: Depois de executargroupBy com umpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como você pode escolherN amostras aleatórias de cada ...

1 a resposta

SparkSQL: soma condicional usando duas colunas

Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

3 a resposta

Diferença entre filtro e onde no scala spark sql

Eu tentei os dois, mas funciona da mesma forma exemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando onde employees.where($"emp_id".isin(items:_*)).showO resultado é o mesmo para os ...