Resultados da pesquisa a pedido "apache-spark"
Quem pode dar uma explicação clara para `combineByKey` no Spark?
estou aprendendo faísca, mas não consigo entender essa funçãocombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...
Como filtrar por período no Spark SQL
Estou tentando filtrar o período dos seguintes dados usando blocos de dados, que retorna nulo como resposta. Meus dados csv se parecem com: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103, DDD, ...
Conecte-se ao SQLite no Apache Spark
Eu quero executar uma função personalizada em todas as tabelas em um banco de dados SQLite. A função é mais ou menos a mesma, mas depende do esquema da tabela individual. Além disso, as tabelas e seus esquemas são conhecidos apenas em tempo de ...
Aplique a mesma função a todos os campos da linha de dataframe spark
Eu tenho o dataframe no qual tenho cerca de 1000s (variáveis) colunas. Eu quero fazer todos os valores em maiúsculas. Aqui está a abordagem em que pensei, você pode sugerir se esse é o melhor caminho. Take rowEncontre o esquema e armazene na ...
Expressões lambda não são suportadas neste nível de idioma [duplicado]
Esta pergunta já tem uma resposta aqui: Java “expressões lambda não suportadas neste nível de linguagem” [/questions/22703412/java-lambda-expressions-not-supported-at-this-language-level] 23 respostasEu tenho uma classe Java que usa Spark. Eu ...
Por que o Yarn on EMR não aloca todos os nós para executar tarefas do Spark?
Estou executando um trabalho no Apache Spark no Amazon Elastic Map Reduce (EMR). Atualmente, estou executando o emr-4.1.0, que inclui o Amazon Hadoop 2.6.0 e o Spark 1.5.0. Quando inicio o trabalho, o YARN alocou corretamente todos os nós de ...
Passagem de frascos adicionais para o Spark por envio de faísca
Estou usando o Spark com MongoDB e, consequentemente, confio nomongo-hadoop motoristas. Fiz as coisas funcionarem graças à contribuição da minha ...
Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?
Eu tenho um dataframe "df" com as colunas ['name', 'age'] salvei o dataframe usandodf.rdd.saveAsTextFile("..") para salvá-lo como um rdd. Carreguei o arquivo salvo e, em seguida, collect () fornece o seguinte resultado. a = ...
Spark 1.5.1 não funciona com o hive jdbc 1.2.0
Estou tentando executar a consulta de seção usando o spark 1.5.1 no modo autônomo e a versão 1.2.0 jdbc da seção. Aqui está o meu pedaço de código: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static ...
Como alterar os nomes das colunas do quadro de dados no pyspark?
Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_listNo entanto, o mesmo não ...