Resultados da pesquisa a pedido "apache-spark"
Spark UDF com varargs
É uma única opção listar todos os argumentos até 22, conforme mostrado ...
O trabalhador do Spark não pode se conectar ao mestre
Ao iniciar o nó do trabalhador, recebo o seguinte erro: Spark Command: /usr/lib/jvm/default-java/bin/java ...
Mestre deve começar com fio, faísca
Estou recebendo esse erro quando é necessário executar o exemplo do SparkPi. beyhan@beyhan:~/spark-1.2.0-bin-hadoop2.4$ /home/beyhan/spark-1.2.0-bin-hadoop2.4/bin/spark-submit --master ego-client --class ...
Como podemos unir dois quadros de dados Spark SQL usando um critério "LIKE" no estilo SQL?
Estamos usando as bibliotecas PySpark em interface com o Spark 1.3.1. Temos dois quadros de dados,documents_df := {document_id, document_text} ekeywords_df := {keyword}. Gostaríamos de unir os dois quadros de dados e retornar um quadro de dados ...
Como salvar um Spark DataFrame como CSV no disco?
Por exemplo, o resultado disso: df.filter("project = 'en'").select("title","count").groupBy("title").sum() retornaria uma matriz. Como salvar um Spark DataFrame como um arquivo CSV no disco?
Como uso várias condições com pyspark.sql.funtions.when ()?
Eu tenho um quadro de dados com algumas colunas. Agora eu quero derivar uma nova coluna de 2 outras colunas: from pyspark.sql import functions as F new_df = df.withColumn("new_col", F.when(df["col-1"] > 0.0 & df["col-2"] > 0.0, ...
Acessando a HDFS HA a partir do trabalho de faísca (erro UnknownHostException)
Tenho o cluster Apache Mesos 0.22.1 (3 mestres e 5 escravos), executando o Cloudera HDFS (2.5.0-cdh5.3.1) na configuração de alta disponibilidade e na estrutura Spark 1.5.1. Quando tento enviar um exemplo de aplicativo HdfsTest.scala compilado ...
Funções da janela Spark - intervalo entre datas
Estou tendo um Spark SQLDataFrame com dados e o que estou tentando obter são todas as linhas que precedem a linha atual em um determinado período. Então, por exemplo, eu quero ter todas as linhas de 7 dias antes da linha especificada. Eu descobri ...
Explodir (transpor?) Várias colunas na tabela Spark SQL
Estou usando o Spark SQL (mencionei que ele está no Spark no caso de afetar a sintaxe do SQL - ainda não estou familiarizado o suficiente para ter certeza) e tenho uma tabela que estou tentando reestruturar, mas estou ficar preso ...
Convertendo várias colunas diferentes na coluna Mapear com o Spark Dataframe scala
Eu tenho um quadro de dados com coluna:user, address1, address2, address3, phone1, phone2 e assim por diante. Quero converter esse quadro de dados em -user, address, phone where address = Map("address1" -> address1.value, "address2" -> ...