Resultados da pesquisa a pedido "apache-spark"
Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc
Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...
Aplicar condição de filtro no quadro de dados criado a partir de JSON
Estou trabalhando no quadro de dados criado pelo JSON e quero aplicar a condição de filtro no quadro de dados. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) ...
Maneira ideal de criar um pipeline de ml no Apache Spark para conjunto de dados com alto número de colunas
Estou trabalhando com o Spark 2.1.1 em um conjunto de dados com recursos ~ 2000 e tentando criar um pipeline básico de ML, composto por alguns transformadores e um classificador. Vamos supor, por uma questão de simplicidade, que o Pipeline com o ...
Por que a associação não é possível após o operador show?
O código a seguir funciona bem até eu adicionarshow depois deagg. Porque éshow não é possivel? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...
Como agrupar por elemento comum na matriz?
Estou tentando encontrar a solução no spark para agrupar dados com um elemento comum em uma matriz. key value [k1,k2] v1 [k2] v2 [k3,k2] v3 [k4] v4Se algum elemento coincidir com a chave, temos que atribuir o mesmo ID de grupo a esse elemento ...
remover colunas NULL no Spark SQL
Como remover colunas que contêm apenas valores nulos de uma tabela? Suponha que eu tenha uma mesa - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null ...
WARN cluster.YarnScheduler: o trabalho inicial não aceitou nenhum recurso
Quaisquer trabalhos spark executados falharão com a seguinte mensagem de erro 17/06/16 11:10:43 WARN cluster.YarnScheduler: O trabalho inicial não aceitou nenhum recurso; verifique a interface do usuário do cluster para garantir que ...
Como criar dataframe da lista no Spark SQL?
Versão Spark: 2.1 Por exemplo, no pyspark, eu crio uma lista test_list = [['Hello', 'world'], ['I', 'am', 'fine']] então, como criar um quadro de dados a partir da lista de teste, onde o tipo do quadro de dados é como abaixo: DataFrame[words: ...
Semelhança de cosseno do Apache Spark Python sobre DataFrames
Para um sistema de recomendação, eu preciso calcular a semelhança de cosseno entre todas as colunas de um Spark DataFrame inteiro. No Pandas, eu costumava fazer isso: import sklearn.metrics as metrics import pandas as pd df= ...
Adicionando parte da coluna Esquema pai ao filho no json aninhado no quadro de dados do spark
Eu tenho abaixo xml que eu estou tentando carregar para desencadear quadro de dados. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...