Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como usar as palavras-chave ESQUERDA e DIREITA no SPARK SQL

Eu sou novo no Spark SQL, No MS SQL, temos a palavra-chave LEFT,LEFT(Columnname,1) in('D','A') then 1 else 0. Como implementar o mesmo no SPARK SQL. Por favor me guie

1 a resposta

Como acessar o elemento de uma coluna VectorUDT em um Spark DataFrame?

Eu tenho um quadro de dadosdf com umVectorUDT coluna denominadafeatures. Como obtenho um elemento da coluna, digamos o primeiro elemento? Eu tentei fazer o seguinte from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

1 a resposta

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Considere que eu tenho um PairedRDD, digamos 10 partições. Mas as chaves não são distribuídas uniformemente, ou seja, todas as 9 partições que possuem dados pertencem a uma única chave, digamosa e o resto das teclas dizb,c existem apenas na ...

3 a resposta

Spark sql como explodir sem perder valores nulos

Eu tenho um Dataframe que estou tentando achatar. Como parte do processo, eu quero explodi-lo, portanto, se eu tiver uma coluna de matrizes, cada valor da matriz será usado para criar uma linha separada. Por exemplo, id | name | likes ...

1 a resposta

Como usar a extração de recursos com o DStream no Apache Spark

Eu tenho dados que chegam de Kafka através do DStream. Desejo executar a extração de recursos para obter algumas palavras-chave. Eu não quero esperar a chegada de todos os dados (como ele deve ser um fluxo contínuo que potencialmente nunca ...

2 a resposta

Iterar um RDD e atualizar uma coleção mutável retorna uma coleção vazia

Eu sou novo no Scala e no Spark e gostaria de alguma ajuda para entender por que o código abaixo não está produzindo o resultado desejado. Estou comparando duas tabelas Meu esquema de saída desejado é: case class ...

2 a resposta

Aplicativo Spark mata executor

Estou executando o cluster de spark no modo autônomo e no aplicativo usando o envio de spark. Na seção de estágio da interface do usuário do spark, encontrei o estágio de execução com grande tempo de execução (> 10h, quando o tempo usual é de ~ ...

2 a resposta

Divisão de linha em várias linhas no shell spark

Importei dados no dataframe Spark no shell de spark. Os dados são preenchidos como: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BAqui na Col4, os valores são de tipos diferentes e ...

1 a resposta

Como usar uma coleção de transmissão em um udf?

Como usar uma coleção de transmissão no Spark SQL 1.6.1 udf. O udf deve ser chamado a partir do SQL principal, como mostrado abaixo sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""") udf_1() deve olhar através de ...

2 a resposta

Qual conector HBase para Spark 2.0 devo usar?

Nossa pilha é composta pelo Google Data Proc (Spark 2.0) e Google BigTable (HBase 1.2.0) e estou procurando um conector que funcione com essas versões. O Spark 2.0 e o novo suporte à API DataSet não estão claros para os conectores que ...