Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc

Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...

2 a resposta

Aplicar condição de filtro no quadro de dados criado a partir de JSON

Estou trabalhando no quadro de dados criado pelo JSON e quero aplicar a condição de filtro no quadro de dados. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) ...

2 a resposta

Maneira ideal de criar um pipeline de ml no Apache Spark para conjunto de dados com alto número de colunas

Estou trabalhando com o Spark 2.1.1 em um conjunto de dados com recursos ~ 2000 e tentando criar um pipeline básico de ML, composto por alguns transformadores e um classificador. Vamos supor, por uma questão de simplicidade, que o Pipeline com o ...

2 a resposta

Por que a associação não é possível após o operador show?

O código a seguir funciona bem até eu adicionarshow depois deagg. Porque éshow não é possivel? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...

1 a resposta

Como agrupar por elemento comum na matriz?

Estou tentando encontrar a solução no spark para agrupar dados com um elemento comum em uma matriz. key value [k1,k2] v1 [k2] v2 [k3,k2] v3 [k4] v4Se algum elemento coincidir com a chave, temos que atribuir o mesmo ID de grupo a esse elemento ...

2 a resposta

remover colunas NULL no Spark SQL

Como remover colunas que contêm apenas valores nulos de uma tabela? Suponha que eu tenha uma mesa - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null ...

1 a resposta

WARN cluster.YarnScheduler: o trabalho inicial não aceitou nenhum recurso

Quaisquer trabalhos spark executados falharão com a seguinte mensagem de erro 17/06/16 11:10:43 WARN cluster.YarnScheduler: O trabalho inicial não aceitou nenhum recurso; verifique a interface do usuário do cluster para garantir que ...

4 a resposta

Como criar dataframe da lista no Spark SQL?

Versão Spark: 2.1 Por exemplo, no pyspark, eu crio uma lista test_list = [['Hello', 'world'], ['I', 'am', 'fine']] então, como criar um quadro de dados a partir da lista de teste, onde o tipo do quadro de dados é como abaixo: DataFrame[words: ...

1 a resposta

Semelhança de cosseno do Apache Spark Python sobre DataFrames

Para um sistema de recomendação, eu preciso calcular a semelhança de cosseno entre todas as colunas de um Spark DataFrame inteiro. No Pandas, eu costumava fazer isso: import sklearn.metrics as metrics import pandas as pd df= ...

1 a resposta

Adicionando parte da coluna Esquema pai ao filho no json aninhado no quadro de dados do spark

Eu tenho abaixo xml que eu estou tentando carregar para desencadear quadro de dados. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...