Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Diferença entre org.apache.spark.ml.classification e org.apache.spark.mllib.classification

Estou escrevendo um aplicativo spark e gostaria de usar algoritmos no MLlib. No documento da API, encontrei duas classes diferentes para o mesmo algoritmo. Por exemplo, há um LogisticRegression em org.apache.spark.ml.classification e também ...

2 a resposta

Spark usando PySpark ler imagens

Olá, tenho muitas imagens (milhões inferiores) nas quais preciso fazer a classificação. Estou usando o Spark e consegui ler todas as imagens no formato de(filename1, content1), (filename2, content2) ... em um grande RDD. images = ...

1 a resposta

Spark 1.5.1 não funciona com o hive jdbc 1.2.0

Estou tentando executar a consulta de seção usando o spark 1.5.1 no modo autônomo e a versão 1.2.0 jdbc da seção. Aqui está o meu pedaço de código: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static ...

2 a resposta

como lidar com o erro SPARK-5063 no spark

Recebo a mensagem de erro SPARK-5063 na linha de println val d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))}d éRDD[Array[String]] m éRDD[(String, String)] . Existe alguma maneira de imprimir da maneira que eu quero? ou como posso ...

2 a resposta

Como carregar CSVs com registros de data e hora em formato personalizado?

Eu tenho um campo de carimbo de data / hora em um arquivo CSV que eu carrego em um dataframe usando a biblioteca spark CSV. O mesmo trecho de código funciona na minha máquina local com a versão Spark 2.0, mas gera um erro no Azure Hortonworks HDP ...

1 a resposta

Apache Spark - Lidando com janelas deslizantes em RDDs temporais

Eu tenho trabalhado bastante com o Apache Spark nos últimos meses, mas agora recebi uma tarefa bastante difícil: calcular etc / média média / mínima / máxima em uma janela deslizante sobre uma janela emparelhadaRDD onde o componente Key é uma tag ...

1 a resposta

Não é possível declarar acumulador do tipo String

Estou tentando definir uma variável acumuladora do tipo String no shell Scala (driver), mas continuo recebendo o seguinte erro: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: ...

1 a resposta

configure spark.streaming.kafka.maxRatePerPartition para createDirectStream

Preciso aumentar a taxa de entrada por partição para meu aplicativo e uso.set("spark.streaming.kafka.maxRatePerPartition",100) para a configuração. A duração do fluxo é de 10s, então espero que o processo5*100*10=5000 mensagens para este lote. No ...

1 a resposta

driver faísca não encontrado

Estou tentando gravar o dataframe no sqlserver usando o spark. Estou usando o método write para dataframewriter para gravar no sql server. Usando DriverManager.getConnection eu sou capaz de obter conexão do sqlserver e capaz de escrever, mas ao ...

1 a resposta

Como converter um RDD [Row] novamente para DataFrame [duplicate]

Esta pergunta já tem uma resposta aqui: Como converter objeto rdd em dataframe no spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respostasEu tenho brincado com a conversão de RDDs para DataFrames e ...