Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Classificação explícita na transformação cartesiana no Scala Spark

Estou usando a transformação cartesiana no Spark Scala. Se minha entrada for composta por 4 elementos (podem ser números / caracteres / tupla), diga var myRDD=sc.parallelize(Array("e1","e2","e3","e4"))myRDD.cartesian (myRDD) produziria todas as ...

5 a resposta

Spark ExecutorLostFailure

Estou tentando executar o spark 1.5 no mesos no modo de cluster. Sou capaz de iniciar o expedidor e executar o envio de faísca. Mas quando faço isso, o driver spark falha com o seguinte: I1111 16:21:33.515130 25325 fetcher.cpp:414] Fetcher ...

1 a resposta

obtenha o TopN de todos os grupos após o grupo usando o Spark DataFrame

Eu tenho um Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Como agrupar por usuário e retornarTopN itens de todos os grupos usando Scala? Código de similaridade usando ...

2 a resposta

Usando groupBy no Spark e retornando a um DataFrame

Tenho uma dificuldade ao trabalhar com quadros de dados no Spark com o Scala. Se eu tiver um quadro de dados que deseje extrair uma coluna de entradas exclusivas, quando usargroupBy Não recebo um quadro de dados de volta. Por exemplo, eu tenho ...

3 a resposta

Qual é a diferença entre Apache Spark SQLContext e HiveContext?

Quais são as diferenças entre o Apache Spark SQLContext e o HiveContext? Algumas fontes dizem que, como o HiveContext é um superconjunto do SQLContext, os desenvolvedores devem sempre usar o HiveContext, que possui mais recursos que o ...

1 a resposta

Como classificar por valor de forma eficiente no PySpark?

Quero ordenar minhas tuplas K, V por V, ou seja, pelo valor. Eu sei dissoTakeOrdered é bom para isso se você souber quantos precisa: b = sc.parallelize([('t',3),('b',4),('c',1)])UsandoTakeOrdered: b.takeOrdered(3,lambda atuple: ...

6 a resposta

Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

1 a resposta

Classificação computacional de uma linha

Quero classificar o ID do usuário com base em um campo. Para o mesmo valor do campo, a classificação deve ser a mesma. Esses dados estão na tabela do Hive. por exemplo. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Como eu posso ...

2 a resposta

União de faísca de vários RDDs

No meu código de porco, faço o seguinte: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Eu quero fazer o mesmo com faísca. No entanto, infelizmente, vejo que tenho que continuar fazendo isso aos ...

1 a resposta

Atributos de referência do Spark SQL do UDT

Estou tentando implementar uma UDT personalizada e posso fazer referência a ela no Spark SQL (conforme explicado no whitepaper Spark SQL, seção 4.4.2). O exemplo real é ter um UDT personalizado suportado por uma estrutura de dados fora da pilha ...