Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Como usar o DataFrame.explode com um UDF personalizado para dividir uma seqüência de caracteres em substrings?

Eu uso o Spark1.5. Eu tenho um DataFrameA_DF do seguinte modo: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...

1 a resposta

Spark 2.0: redefinindo os parâmetros do SparkSession por meio do GetOrCreate e NÃO vendo alterações no WebUI

Estou usando o Spark 2.0 com PySpark. Estou redefinindoSparkSession parâmetros através de umGetOrCreate método que foi introduzido no 2.0: Esse método primeiro verifica se existe um SparkSession padrão global válido e, se sim, retorne esse. Se ...

1 a resposta

Como conectar-se ao servidor de seção remota a partir do spark

Estou executando o spark localmente e quero acessar as tabelas do Hive, localizadas no cluster remoto do Hadoop. Consigo acessar as tabelas de colmeia lançando beeline em SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline version ...

2 a resposta

Como filtrar o quadro de dados Spark se uma coluna é membro de outra coluna

Eu tenho um quadro de dados com duas colunas (uma sequência e uma matriz de sequência): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Como posso filtrar o quadro de dados ...

2 a resposta

Pyspark: função de janela personalizada

Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...

1 a resposta

Use mais de um collect_list em uma consulta no Spark SQL

Eu tenho o seguinte quadro de dadosdata: root |-- userId: string |-- product: string |-- rating: doublee a seguinte consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...

1 a resposta

Cláusula Spark SQL - IN

Gostaria de adicionar a condição where para uma coluna com vários valores no DataFrame. Está trabalhando para um valor único, por exemplo. df.where($"type".==="type1" && $"status"==="completed").Como posso adicionar vários valores para a mesma ...

3 a resposta

Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)

Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...

4 a resposta

Qual é o significado dos parâmetros partitionColumn, lowerBound, upperBound, numPartitions?

Ao buscar dados do SQL Server por meio de uma conexão JDBC no Spark, descobri que posso definir alguns parâmetros de paralelização, comopartitionColumn, lowerBound, upperBoundenumPartitions. Eu passeidocumentação do ...

3 a resposta

Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas

Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...