Resultados da pesquisa a pedido "apache-spark"

1 a resposta

pyspark seleciona subconjunto de arquivos usando regex / glob do s3

Eu tenho um número de arquivos cada segregados por data(date=yyyymmdd) no amazon s3. Os arquivos retornam 6 meses, mas eu gostaria de restringir meu script para usar apenas os últimos 3 meses de dados. Não tenho certeza se poderei usar expressões ...

2 a resposta

Preguiçoso foreach em um Spark RDD

Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...

1 a resposta

Não é possível declarar acumulador do tipo String

Estou tentando definir uma variável acumuladora do tipo String no shell Scala (driver), mas continuo recebendo o seguinte erro: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: ...

1 a resposta

Explicação do método de dobra do spark RDD

Estou executando o Spark-1.4.0 pré-criado para o Hadoop-2.4 (no modo local) para calcular a soma dos quadrados de um DoubleRDD. Meu código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)E deu um ...

6 a resposta

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar emDataFrame com um esquema especificado no Scala. Tentei usar a leitura JSON (refiro-me à leitura de arquivos vazios), mas não acho que seja a melhor prática.

1 a resposta

O Spark fornece um StackOverflowError ao treinar usando o ALS

Ao tentar treinar um modelo de aprendizado de máquina usando o ALS no MLLib do Spark, continuei recebendo um StackoverflowError. Aqui está uma pequena amostra do rastreamento de pilha: Traceback (most recent call last): File ...

1 a resposta

Como imprimir variável de acumulador de dentro da tarefa (parece "funcionar" sem chamar o método de valor)?

Eu sei que as variáveis do acumulador são 'somente gravação' do ponto de vista das tarefas, quando estão em execução nos nós do trabalhador. Eu estava testando isso e percebi que sou capaz de imprimir o valor do acumulador na tarefa. Aqui estou ...

1 a resposta

Falha no teste de integração para o Apache Spark Streaming

Eu tenho tentado rastrear um problema com alguns testes de unidade / integração que escrevi para um projeto Apache Spark. Ao usar o Spark 1.1.1, meu teste passou. Quando tentei atualizar para a 1.4.0 (também tentei a 1.4.1), o teste começa a ...

1 a resposta

Uso do método spark as DataFrame “as”

estou olhando paraspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentação. Há sim def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Qual é ...

4 a resposta

Spark MLLib Kmeans do dataframe e vice-versa

Eu pretendo aplicar um algoritmo de agrupamento kmeans a um conjunto de dados muito grande usando o Spark (1.3.1) MLLib. Chamei os dados de um HDFS usando um hiveContext do Spark e, eventualmente, gostaria de colocá-los de volta lá dessa maneira ...