Resultados da pesquisa a pedido "apache-spark"
Como obter a memória do Executor Framework do Mesos Agents
Dentro da interface da Web do Mesos Web, posso ver o uso de memória dos meus executores Spark em uma tabela Agents -> Framework -> Executors Há uma tabela listando todos os executores do meu driver Spark e o uso de memória é indicado na ...
Conjunto de dados Spark 2.0 vs DataFrame
começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...
Para limitar o grande RDD
Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...
java.io.EOFException no Spark EC2 Cluster ao enviar a tarefa programaticamente
realmente preciso da sua ajuda para entender o que estou fazendo de errado. A intenção do meu experimento é executar o trabalho de faísca programaticamente em vez de usar ./spark-shell ou ./spark-submit (ambos funcionam para mim) Ambiente: ...
Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação
Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...
Como adicionar uma coluna ao conjunto de dados sem converter de um DataFrame e acessá-lo?
Estou ciente do método para adicionar uma nova coluna a um Spark DataSet usando.withColumn() e umUDF, que retorna um DataFrame. Também sei que podemos converter o DataFrame resultante em um DataSet. Minhas perguntas são: Como a segurança de ...
a compilação do scalac produz "o objeto apache não é membro da organização do pacote"
Meu código é: import org.apache.spark.SparkContextEle pode ser executado no modo interativo, mas quando eu uso o scalac para compilá-lo, recebi a seguinte mensagem de erro: O objeto apache não é membro da organização do pacote Este parece ser ...
Como salvar um DataFrame como CSV compactado (compactado com gz)?
Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...
Os quadros de dados Spark convertem JSON aninhado em colunas separadas
Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...
Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala
Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...