Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Erro: scalac: referência simbólica incorreta. Uma assinatura em SQLContext.class refere-se ao tipo Efetuando login no pacote org.apache.spark, que não está disponível

Quando cumpri um arquivo scala usado pelo IntelliJ IDEA, o seguinte erro foi mostrado. Erro: scalac: referência simbólica incorreta. Uma assinatura no SQLContext.class refere-se ao tipo Logon no pacote org.apache.spark, que não está ...

1 a resposta

Como usar a especificação da janela e a condição de associação por valores de coluna?

Aqui está o meu DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

2 a resposta

Como testar o Spark RDD

Não tenho certeza se podemos testar RDDs no Spark. Me deparei com um artigo em que diz que Zombar de um RDD não é uma boa ideia. Existe alguma outra maneira ou prática recomendada para testar RDDs

1 a resposta

registerTempTable falha no DataFrame criado a partir do RDD

Isso está no Spark 1.6.x. Estou procurando uma solução alternativa. Eu tenho uma função que cria umDataFrame a partir de umDataFrameRDD subjacente: def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new ...

2 a resposta

Spark.sql.autoBroadcastJoinThreshold funciona para junções usando o operador de junção do conjunto de dados?

Eu gostaria de saber sespark.sql.autoBroadcastJoinThreshold A propriedade pode ser útil para transmitir tabela menor em todos os nós do trabalhador (ao fazer a junção), mesmo quando o esquema de junção estiver usando a junção da API do conjunto ...

4 a resposta

Como substituir valores nulos por um valor específico no Dataframe usando spark em Java?

Estou tentando melhorar a precisão do algoritmo de regressão logística implementado no Spark usando Java. Para isso, estou tentando substituir valores nulos ou inválidos presentes em uma coluna pelo valor mais frequente dessa coluna. Por ...

1 a resposta

Por que o Impala não consegue ler arquivos em parquet após a gravação do Spark SQL?

Tendo alguns problemas com a maneira como o Spark está interpretando colunas para parquet. Eu tenho uma fonte Oracle com esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

2 a resposta

A sequência de caracteres da coluna Spark substitui quando presente em outra coluna (linha)

Eu gostaria de remover as cordas decol1 que estão presentes emcol2: val df = spark.createDataFrame(Seq( ("Hi I heard about Spark", "Spark"), ("I wish Java could use case classes", "Java"), ("Logistic regression models are neat", "models") ...

1 a resposta

Fluxo estruturado do Spark: vários dissipadores

Estamos consumindo da Kafka usando streaming estruturado e gravando o conjunto de dados processados em s3. Também queremos gravar os dados processados no Kafka daqui para frente. É possível fazê-lo a partir da mesma consulta de streaming? (spark ...

1 a resposta

Filtragem de faísca com regex

Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...