Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark UDF com varargs

É uma única opção listar todos os argumentos até 22, conforme mostrado ...

2 a resposta

O trabalhador do Spark não pode se conectar ao mestre

Ao iniciar o nó do trabalhador, recebo o seguinte erro: Spark Command: /usr/lib/jvm/default-java/bin/java ...

2 a resposta

Mestre deve começar com fio, faísca

Estou recebendo esse erro quando é necessário executar o exemplo do SparkPi. beyhan@beyhan:~/spark-1.2.0-bin-hadoop2.4$ /home/beyhan/spark-1.2.0-bin-hadoop2.4/bin/spark-submit --master ego-client --class ...

1 a resposta

Como podemos unir dois quadros de dados Spark SQL usando um critério "LIKE" no estilo SQL?

Estamos usando as bibliotecas PySpark em interface com o Spark 1.3.1. Temos dois quadros de dados,documents_df := {document_id, document_text} ekeywords_df := {keyword}. Gostaríamos de unir os dois quadros de dados e retornar um quadro de dados ...

3 a resposta

Como salvar um Spark DataFrame como CSV no disco?

Por exemplo, o resultado disso: df.filter("project = 'en'").select("title","count").groupBy("title").sum() retornaria uma matriz. Como salvar um Spark DataFrame como um arquivo CSV no disco?

0 a resposta

Como uso várias condições com pyspark.sql.funtions.when ()?

Eu tenho um quadro de dados com algumas colunas. Agora eu quero derivar uma nova coluna de 2 outras colunas: from pyspark.sql import functions as F new_df = df.withColumn("new_col", F.when(df["col-1"] > 0.0 & df["col-2"] > 0.0, ...

5 a resposta

Acessando a HDFS HA a partir do trabalho de faísca (erro UnknownHostException)

Tenho o cluster Apache Mesos 0.22.1 (3 mestres e 5 escravos), executando o Cloudera HDFS (2.5.0-cdh5.3.1) na configuração de alta disponibilidade e na estrutura Spark 1.5.1. Quando tento enviar um exemplo de aplicativo HdfsTest.scala compilado ...

1 a resposta

Funções da janela Spark - intervalo entre datas

Estou tendo um Spark SQLDataFrame com dados e o que estou tentando obter são todas as linhas que precedem a linha atual em um determinado período. Então, por exemplo, eu quero ter todas as linhas de 7 dias antes da linha especificada. Eu descobri ...

2 a resposta

Explodir (transpor?) Várias colunas na tabela Spark SQL

Estou usando o Spark SQL (mencionei que ele está no Spark no caso de afetar a sintaxe do SQL - ainda não estou familiarizado o suficiente para ter certeza) e tenho uma tabela que estou tentando reestruturar, mas estou ficar preso ...

1 a resposta

Convertendo várias colunas diferentes na coluna Mapear com o Spark Dataframe scala

Eu tenho um quadro de dados com coluna:user, address1, address2, address3, phone1, phone2 e assim por diante. Quero converter esse quadro de dados em -user, address, phone where address = Map("address1" -> address1.value, "address2" -> ...