Resultados da pesquisa a pedido "apache-spark"
pyspark seleciona subconjunto de arquivos usando regex / glob do s3
Eu tenho um número de arquivos cada segregados por data(date=yyyymmdd) no amazon s3. Os arquivos retornam 6 meses, mas eu gostaria de restringir meu script para usar apenas os últimos 3 meses de dados. Não tenho certeza se poderei usar expressões ...
Preguiçoso foreach em um Spark RDD
Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...
Não é possível declarar acumulador do tipo String
Estou tentando definir uma variável acumuladora do tipo String no shell Scala (driver), mas continuo recebendo o seguinte erro: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: ...
Explicação do método de dobra do spark RDD
Estou executando o Spark-1.4.0 pré-criado para o Hadoop-2.4 (no modo local) para calcular a soma dos quadrados de um DoubleRDD. Meu código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)E deu um ...
Como criar um DataFrame vazio com um esquema especificado?
Eu quero criar emDataFrame com um esquema especificado no Scala. Tentei usar a leitura JSON (refiro-me à leitura de arquivos vazios), mas não acho que seja a melhor prática.
O Spark fornece um StackOverflowError ao treinar usando o ALS
Ao tentar treinar um modelo de aprendizado de máquina usando o ALS no MLLib do Spark, continuei recebendo um StackoverflowError. Aqui está uma pequena amostra do rastreamento de pilha: Traceback (most recent call last): File ...
Como imprimir variável de acumulador de dentro da tarefa (parece "funcionar" sem chamar o método de valor)?
Eu sei que as variáveis do acumulador são 'somente gravação' do ponto de vista das tarefas, quando estão em execução nos nós do trabalhador. Eu estava testando isso e percebi que sou capaz de imprimir o valor do acumulador na tarefa. Aqui estou ...
Falha no teste de integração para o Apache Spark Streaming
Eu tenho tentado rastrear um problema com alguns testes de unidade / integração que escrevi para um projeto Apache Spark. Ao usar o Spark 1.1.1, meu teste passou. Quando tentei atualizar para a 1.4.0 (também tentei a 1.4.1), o teste começa a ...
Uso do método spark as DataFrame “as”
estou olhando paraspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentação. Há sim def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Qual é ...
Spark MLLib Kmeans do dataframe e vice-versa
Eu pretendo aplicar um algoritmo de agrupamento kmeans a um conjunto de dados muito grande usando o Spark (1.3.1) MLLib. Chamei os dados de um HDFS usando um hiveContext do Spark e, eventualmente, gostaria de colocá-los de volta lá dessa maneira ...