Resultados da pesquisa a pedido "apache-spark"
Scala Spark - divida a coluna vetorial em colunas separadas em um Spark DataFrame
Eu tenho um Spark DataFrame onde eu tenho uma coluna com valores de vetor. Os valores do vetor são todos n-dimensionais, também conhecidos como o mesmo comprimento. Eu também tenho uma lista de nomes de colunasArray("f1", "f2", "f3", ..., "fn"), ...
Apache Spark: map vs mapPartitions?
Qual é a diferença entre umRDD's [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado. (editar) ou seja, qual é a diferença ...
EsHadoopIllegalArgumentException: Não é possível detectar o exemplo Spark-ElasticSearch da versão ES
Estou tentando executar uma gravação simples de dados no exemplo do ElasticSearch. No entanto, continuo recebendo este erro: EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster ...
Pyspark - TypeError: o objeto 'float' não é subscrito ao calcular a média usando o reduzaByKey
meu arquivo "asdasd.csv" possui a seguinte ...
Como executar um programa de exemplo de faísca no Intellij IDEA
Primeiro na linha de comando da raiz do projeto spark baixado, executei mvn packageFoi bem sucedido. Em seguida, um projeto intellij foi criado importando o spark pom.xml. No IDE, a classe de exemplo parece correta: todas as bibliotecas ...
conte o número de elementos únicos em cada coluna com dplyr no sparklyr
Estou tentando contar o número de elementos exclusivos em cada coluna nos conjuntos de dados do spark s. No entanto, parece que a faísca não reconhece ...
maxCategories não está funcionando como esperado no VectorIndexer ao usar RandomForestClassifier no pyspark.ml
Antecedentes: estou fazendo uma classificação binária simples, usando RandomForestClassifier do pyspark.ml. Antes de alimentar os dados para o treinamento, consegui usar o VectorIndexer para decidir se os recursos seriam numéricos ou categóricos, ...
Árvores impulsionadas por gradiente Spark ML que não usam todos os nós
Estou usando oSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] nopyspark para treinar um modelo de classificação binária em um dataframe com ~ 400k linhas e ~ 9k ...
Spark: prática recomendada para recuperar big data do RDD para a máquina local
Eu tenho grande RDD (1gb) no cluster de fios. Na máquina local, que usa esse cluster, tenho apenas 512 mb. Eu gostaria de repetir os valores no RDD na minha máquina local. Eu não posso usar o collect (), porque ele criaria uma matriz muito grande ...
pyspark: eficientemente tem partitionBy escreve no mesmo número de partições totais que a tabela original
Eu tive uma pergunta relacionada ao pyspark'srepartitionBy() função que eu originalmente postei em um comentárioessa ...