Resultados da pesquisa a pedido "apache-spark"
Erro: scalac: referência simbólica incorreta. Uma assinatura em SQLContext.class refere-se ao tipo Efetuando login no pacote org.apache.spark, que não está disponível
Quando cumpri um arquivo scala usado pelo IntelliJ IDEA, o seguinte erro foi mostrado. Erro: scalac: referência simbólica incorreta. Uma assinatura no SQLContext.class refere-se ao tipo Logon no pacote org.apache.spark, que não está ...
Como usar a especificação da janela e a condição de associação por valores de coluna?
Aqui está o meu DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...
Como testar o Spark RDD
Não tenho certeza se podemos testar RDDs no Spark. Me deparei com um artigo em que diz que Zombar de um RDD não é uma boa ideia. Existe alguma outra maneira ou prática recomendada para testar RDDs
registerTempTable falha no DataFrame criado a partir do RDD
Isso está no Spark 1.6.x. Estou procurando uma solução alternativa. Eu tenho uma função que cria umDataFrame a partir de umDataFrameRDD subjacente: def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new ...
Spark.sql.autoBroadcastJoinThreshold funciona para junções usando o operador de junção do conjunto de dados?
Eu gostaria de saber sespark.sql.autoBroadcastJoinThreshold A propriedade pode ser útil para transmitir tabela menor em todos os nós do trabalhador (ao fazer a junção), mesmo quando o esquema de junção estiver usando a junção da API do conjunto ...
Como substituir valores nulos por um valor específico no Dataframe usando spark em Java?
Estou tentando melhorar a precisão do algoritmo de regressão logística implementado no Spark usando Java. Para isso, estou tentando substituir valores nulos ou inválidos presentes em uma coluna pelo valor mais frequente dessa coluna. Por ...
Por que o Impala não consegue ler arquivos em parquet após a gravação do Spark SQL?
Tendo alguns problemas com a maneira como o Spark está interpretando colunas para parquet. Eu tenho uma fonte Oracle com esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...
A sequência de caracteres da coluna Spark substitui quando presente em outra coluna (linha)
Eu gostaria de remover as cordas decol1 que estão presentes emcol2: val df = spark.createDataFrame(Seq( ("Hi I heard about Spark", "Spark"), ("I wish Java could use case classes", "Java"), ("Logistic regression models are neat", "models") ...
Fluxo estruturado do Spark: vários dissipadores
Estamos consumindo da Kafka usando streaming estruturado e gravando o conjunto de dados processados em s3. Também queremos gravar os dados processados no Kafka daqui para frente. É possível fazê-lo a partir da mesma consulta de streaming? (spark ...
Filtragem de faísca com regex
Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...