Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como obter a memória do Executor Framework do Mesos Agents

Dentro da interface da Web do Mesos Web, posso ver o uso de memória dos meus executores Spark em uma tabela Agents -> Framework -> Executors Há uma tabela listando todos os executores do meu driver Spark e o uso de memória é indicado na ...

2 a resposta

Conjunto de dados Spark 2.0 vs DataFrame

começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...

1 a resposta

Para limitar o grande RDD

Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...

1 a resposta

java.io.EOFException no Spark EC2 Cluster ao enviar a tarefa programaticamente

realmente preciso da sua ajuda para entender o que estou fazendo de errado. A intenção do meu experimento é executar o trabalho de faísca programaticamente em vez de usar ./spark-shell ou ./spark-submit (ambos funcionam para mim) Ambiente: ...

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...

2 a resposta

Como adicionar uma coluna ao conjunto de dados sem converter de um DataFrame e acessá-lo?

Estou ciente do método para adicionar uma nova coluna a um Spark DataSet usando.withColumn() e umUDF, que retorna um DataFrame. Também sei que podemos converter o DataFrame resultante em um DataSet. Minhas perguntas são: Como a segurança de ...

3 a resposta

a compilação do scalac produz "o objeto apache não é membro da organização do pacote"

Meu código é: import org.apache.spark.SparkContextEle pode ser executado no modo interativo, mas quando eu uso o scalac para compilá-lo, recebi a seguinte mensagem de erro: O objeto apache não é membro da organização do pacote Este parece ser ...

4 a resposta

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...

3 a resposta

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

1 a resposta

Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala

Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...