Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como desativar a notação científica no pyspark?

Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...

1 a resposta

Como parar de executar o aplicativo Spark Streaming graciosamente?

Como faço para parar o streaming de faíscas? Meu trabalho de streaming em faísca está sendo executado continuamente. Eu quero parar de uma maneira graciosa. Eu vi abaixo a opção para desligar o aplicativo de ...

1 a resposta

Como usar o DataFrame.explode com um UDF personalizado para dividir uma seqüência de caracteres em substrings?

Eu uso o Spark1.5. Eu tenho um DataFrameA_DF do seguinte modo: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...

1 a resposta

A junção de valor não é membro de org.apache.spark.rdd.RDD [(Long, T)]

Esta função parece válida para o meu IDE: def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = { rdd1 .zipWithIndex .map(_.swap) .join( rdd2 .zipWithIndex .map(_.swap)) .values }Mas quando eu compilar, recebo: value join não é membro de ...

1 a resposta

Como conectar-se ao servidor de seção remota a partir do spark

Estou executando o spark localmente e quero acessar as tabelas do Hive, localizadas no cluster remoto do Hadoop. Consigo acessar as tabelas de colmeia lançando beeline em SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline version ...

3 a resposta

Replicar vezes N da linha do Spark

Quero duplicar uma linha em um DataFrame, como posso fazer isso? Por exemplo, eu tenho um DataFrame que consiste em 1 linha e quero criar um DataFrame com 100 linhas idênticas. Eu vim com a seguinte solução: var data:DataFrame=singleRowDF ...

2 a resposta

Como filtrar o quadro de dados Spark se uma coluna é membro de outra coluna

Eu tenho um quadro de dados com duas colunas (uma sequência e uma matriz de sequência): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Como posso filtrar o quadro de dados ...

2 a resposta

Pyspark: função de janela personalizada

Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...

1 a resposta

Como limitar a alocação dinâmica de recursos no cluster do Hadoop no Yarn?

Em nosso cluster Hadoop que é executado no Yarn, estamos com um problema de que algumas pessoas "mais inteligentes" consomem quantidades significativamente maiores de recursos configurando tarefas Spark nos blocos de anotações pySpark Jupyter, ...

3 a resposta

Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)

Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...