Resultados da pesquisa a pedido "apache-spark"
Classificação explícita na transformação cartesiana no Scala Spark
Estou usando a transformação cartesiana no Spark Scala. Se minha entrada for composta por 4 elementos (podem ser números / caracteres / tupla), diga var myRDD=sc.parallelize(Array("e1","e2","e3","e4"))myRDD.cartesian (myRDD) produziria todas as ...
Spark ExecutorLostFailure
Estou tentando executar o spark 1.5 no mesos no modo de cluster. Sou capaz de iniciar o expedidor e executar o envio de faísca. Mas quando faço isso, o driver spark falha com o seguinte: I1111 16:21:33.515130 25325 fetcher.cpp:414] Fetcher ...
obtenha o TopN de todos os grupos após o grupo usando o Spark DataFrame
Eu tenho um Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Como agrupar por usuário e retornarTopN itens de todos os grupos usando Scala? Código de similaridade usando ...
Usando groupBy no Spark e retornando a um DataFrame
Tenho uma dificuldade ao trabalhar com quadros de dados no Spark com o Scala. Se eu tiver um quadro de dados que deseje extrair uma coluna de entradas exclusivas, quando usargroupBy Não recebo um quadro de dados de volta. Por exemplo, eu tenho ...
Qual é a diferença entre Apache Spark SQLContext e HiveContext?
Quais são as diferenças entre o Apache Spark SQLContext e o HiveContext? Algumas fontes dizem que, como o HiveContext é um superconjunto do SQLContext, os desenvolvedores devem sempre usar o HiveContext, que possui mais recursos que o ...
Como classificar por valor de forma eficiente no PySpark?
Quero ordenar minhas tuplas K, V por V, ou seja, pelo valor. Eu sei dissoTakeOrdered é bom para isso se você souber quantos precisa: b = sc.parallelize([('t',3),('b',4),('c',1)])UsandoTakeOrdered: b.takeOrdered(3,lambda atuple: ...
Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?
Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...
Classificação computacional de uma linha
Quero classificar o ID do usuário com base em um campo. Para o mesmo valor do campo, a classificação deve ser a mesma. Esses dados estão na tabela do Hive. por exemplo. user value a 5 b 10 c 5 d 6 Rank a - 1 c - 1 d - 3 b - 4Como eu posso ...
União de faísca de vários RDDs
No meu código de porco, faço o seguinte: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Eu quero fazer o mesmo com faísca. No entanto, infelizmente, vejo que tenho que continuar fazendo isso aos ...
Atributos de referência do Spark SQL do UDT
Estou tentando implementar uma UDT personalizada e posso fazer referência a ela no Spark SQL (conforme explicado no whitepaper Spark SQL, seção 4.4.2). O exemplo real é ter um UDT personalizado suportado por uma estrutura de dados fora da pilha ...