Resultados da pesquisa a pedido "apache-spark-sql"
Como usar o DataFrame.explode com um UDF personalizado para dividir uma seqüência de caracteres em substrings?
Eu uso o Spark1.5. Eu tenho um DataFrameA_DF do seguinte modo: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...
Spark 2.0: redefinindo os parâmetros do SparkSession por meio do GetOrCreate e NÃO vendo alterações no WebUI
Estou usando o Spark 2.0 com PySpark. Estou redefinindoSparkSession parâmetros através de umGetOrCreate método que foi introduzido no 2.0: Esse método primeiro verifica se existe um SparkSession padrão global válido e, se sim, retorne esse. Se ...
Como conectar-se ao servidor de seção remota a partir do spark
Estou executando o spark localmente e quero acessar as tabelas do Hive, localizadas no cluster remoto do Hadoop. Consigo acessar as tabelas de colmeia lançando beeline em SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline version ...
Como filtrar o quadro de dados Spark se uma coluna é membro de outra coluna
Eu tenho um quadro de dados com duas colunas (uma sequência e uma matriz de sequência): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Como posso filtrar o quadro de dados ...
Pyspark: função de janela personalizada
Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...
Use mais de um collect_list em uma consulta no Spark SQL
Eu tenho o seguinte quadro de dadosdata: root |-- userId: string |-- product: string |-- rating: doublee a seguinte consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...
Cláusula Spark SQL - IN
Gostaria de adicionar a condição where para uma coluna com vários valores no DataFrame. Está trabalhando para um valor único, por exemplo. df.where($"type".==="type1" && $"status"==="completed").Como posso adicionar vários valores para a mesma ...
Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)
Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...
Qual é o significado dos parâmetros partitionColumn, lowerBound, upperBound, numPartitions?
Ao buscar dados do SQL Server por meio de uma conexão JDBC no Spark, descobri que posso definir alguns parâmetros de paralelização, comopartitionColumn, lowerBound, upperBoundenumPartitions. Eu passeidocumentação do ...
Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas
Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...