Resultados da pesquisa a pedido "apache-spark-sql"

Como usar o DataFrame.explode com um UDF personalizado para dividir uma seqüência de caracteres em substrings?

Eu uso o Spark1.5. Eu tenho um DataFrameA_DF do seguinte modo: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...

pyspark-sql pyspark apache-spark

1 a resposta

Spark 2.0: redefinindo os parâmetros do SparkSession por meio do GetOrCreate e NÃO vendo alterações no WebUI

Estou usando o Spark 2.0 com PySpark. Estou redefinindoSparkSession parâmetros através de umGetOrCreate método que foi introduzido no 2.0: Esse método primeiro verifica se existe um SparkSession padrão global válido e, se sim, retorne esse. Se ...

apache-spark spark-thriftserver hive

1 a resposta

Como conectar-se ao servidor de seção remota a partir do spark

Estou executando o spark localmente e quero acessar as tabelas do Hive, localizadas no cluster remoto do Hadoop. Consigo acessar as tabelas de colmeia lançando beeline em SPARK_HOME [ml@master spark-2.0.0]$./bin/beeline Beeline version ...

scala dataframe apache-spark

2 a resposta

Como filtrar o quadro de dados Spark se uma coluna é membro de outra coluna

Eu tenho um quadro de dados com duas colunas (uma sequência e uma matriz de sequência): root |-- user: string (nullable = true) |-- users: array (nullable = true) | |-- element: string (containsNull = true)Como posso filtrar o quadro de dados ...

window-functions apache-spark pyspark

2 a resposta

Pyspark: função de janela personalizada

Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...

hive apache-spark scala

1 a resposta

Use mais de um collect_list em uma consulta no Spark SQL

Eu tenho o seguinte quadro de dadosdata: root |-- userId: string |-- product: string |-- rating: doublee a seguinte consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...

dataframe scala

1 a resposta

Cláusula Spark SQL - IN

Gostaria de adicionar a condição where para uma coluna com vários valores no DataFrame. Está trabalhando para um valor único, por exemplo. df.where($"type".==="type1" && $"status"==="completed").Como posso adicionar vários valores para a mesma ...

apache-spark pyspark user-defined-functions python

3 a resposta

Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)

Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...

jdbc apache-spark

4 a resposta

Qual é o significado dos parâmetros partitionColumn, lowerBound, upperBound, numPartitions?

Ao buscar dados do SQL Server por meio de uma conexão JDBC no Spark, descobri que posso definir alguns parâmetros de paralelização, comopartitionColumn, lowerBound, upperBoundenumPartitions. Eu passeidocumentação do ...

pyspark csv apache-spark apache-spark-2.0

3 a resposta

Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas

Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...

Página 9 do 52

7 8910 11

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares