Resultados da pesquisa a pedido "apache-spark"
Como desativar a notação científica no pyspark?
Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...
Como parar de executar o aplicativo Spark Streaming graciosamente?
Como faço para parar o streaming de faíscas? Meu trabalho de streaming em faísca está sendo executado continuamente. Eu quero parar de uma maneira graciosa. Eu vi abaixo a opção para desligar o aplicativo de ...
Como usar o DataFrame.explode com um UDF personalizado para dividir uma seqüência de caracteres em substrings?
Eu uso o Spark1.5. Eu tenho um DataFrameA_DF do seguinte modo: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...
A junção de valor não é membro de org.apache.spark.rdd.RDD [(Long, T)]
Esta função parece válida para o meu IDE: def zip[T, U](rdd1:RDD[T], rdd2:RDD[U]) : RDD[(T,U)] = { rdd1 .zipWithIndex .map(_.swap) .join( rdd2 .zipWithIndex .map(_.swap)) .values }Mas quando eu compilar, recebo: value join não é membro de ...
Como conectar-se ao servidor de seção remota a partir do spark
Estou executando o spark localmente e quero acessar as tabelas do Hive, localizadas no cluster remoto do Hadoop. Consigo acessar as tabelas de colmeia lançando beeline em SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline version ...
Replicar vezes N da linha do Spark
Quero duplicar uma linha em um DataFrame, como posso fazer isso? Por exemplo, eu tenho um DataFrame que consiste em 1 linha e quero criar um DataFrame com 100 linhas idênticas. Eu vim com a seguinte solução: var data:DataFrame=singleRowDF ...
Como filtrar o quadro de dados Spark se uma coluna é membro de outra coluna
Eu tenho um quadro de dados com duas colunas (uma sequência e uma matriz de sequência): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Como posso filtrar o quadro de dados ...
Pyspark: função de janela personalizada
Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...
Como limitar a alocação dinâmica de recursos no cluster do Hadoop no Yarn?
Em nosso cluster Hadoop que é executado no Yarn, estamos com um problema de que algumas pessoas "mais inteligentes" consomem quantidades significativamente maiores de recursos configurando tarefas Spark nos blocos de anotações pySpark Jupyter, ...
Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)
Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...