Resultados da pesquisa a pedido "apache-spark"
Scala e Spark: como passar por uma imagem?
Eu tenho alguns arquivos binários que são imagens e gostaria de examinar os mesmos, distribuindo os pixels: cada nó do meu cluster deve obter o RGB de um grupo diferente de pixels que os de outro nó e armazená-los em um Coleção Scala. estou ...
Como executar o script Scala usando o envio por spark (semelhante ao script Python)?
Tento executar um script Scala simples usando o Spark, conforme descrito no Tutorial de iniciação rápida do Spark [https://spark.apache.org/docs/1.2.0/quick-start.html]. Não tenho problemas para executar o seguinte código ...
Problema de falta de memória de Uima Ruta no contexto de faísca
Eu estou executando umUIMAaplicação no apache spark. Há milhões de páginas entrando em lotes para serem processadas porUIMA RUTApara cálculo. Mas há algum tempo que estou enfrentando uma exceção de falta de memória. Lança exceção em algum momento ...
Driver de conexão independente Spark para trabalhador
Estou tentando hospedar localmente um cluster autônomo de faísca. Eu tenho duas máquinas heterogêneas conectadas em uma LAN. Cada parte da arquitetura listada abaixo está sendo executada no docker. Eu tenho a seguinte configuração mestre na ...
Aviso de causa UDF: CachedKafkaConsumer não está sendo executado no UninterruptibleThread (KAFKA-1894)
Em um habitualstruct_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Quando divido linhas em palavras porudf como abaixo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...
Como desenrolar a matriz no DataFrame (de JSON)?
Cada registro em um RDD contém um json. Estou usando o SQLContext para criar um DataFrame a partir do Json assim: val signalsJsonRdd = sqlContext.jsonRDD(signalsJson)Abaixo está o esquema. datapayload é uma matriz de itens. Eu quero explodir a ...
Adicionar coluna Número de dias à coluna Data no mesmo quadro de dados para o aplicativo Spark Scala
eu tenho umdataframe df decolumns ("id", "current_date", "days") e estou tentando adicionar o "days" para "current_date"e crie um novodataframe com novocolumn chamado "new_date"usando a função spark scaladate_add() val newDF = ...
Como escrever um objeto de conjunto de dados para se destacar no spark java?
Estou lendo o arquivo excel usandocom.crealytics.spark.excelpacote. Abaixo está o código para ler um arquivo excel no spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", ...
Onde está a referência para opções de escrita ou leitura por formato?
Eu uso o Spark 1.6.1. Estamos tentando gravar um arquivo ORC no HDFS usando o HiveContext e o DataFrameWriter. Embora possamos usar df.write().orc(<path>)nós preferimos fazer algo como df.write().options(Map("format" -> "orc", "path" -> ...
Como aplicar esquema com nullable = false à leitura do json
Estou tentando escrever alguns casos de teste usando arquivos json para quadros de dados (enquanto a produção seria em parquet). Estou usando a estrutura base de teste spark-test e estou enfrentando um problema ao afirmar que os quadros de dados ...