Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

PySpark: StructField (…,…, False) sempre retorna `nullable = true` em vez de` nullable = false`

Eu sou novo no PySpark e estou enfrentando um problema estranho. Estou tentando definir alguma coluna como não anulável ao carregar um conjunto de dados CSV. Posso reproduzir meu caso com um conjunto de dados muito pequeno ...

1 a resposta

PySpark Como ler CSV no Dataframe e manipulá-lo

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

3 a resposta

Como usar as palavras-chave ESQUERDA e DIREITA no SPARK SQL

Eu sou novo no Spark SQL, No MS SQL, temos a palavra-chave LEFT,LEFT(Columnname,1) in('D','A') then 1 else 0. Como implementar o mesmo no SPARK SQL. Por favor me guie

1 a resposta

Como acessar o elemento de uma coluna VectorUDT em um Spark DataFrame?

Eu tenho um quadro de dadosdf com umVectorUDT coluna denominadafeatures. Como obtenho um elemento da coluna, digamos o primeiro elemento? Eu tentei fazer o seguinte from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

3 a resposta

Spark sql como explodir sem perder valores nulos

Eu tenho um Dataframe que estou tentando achatar. Como parte do processo, eu quero explodi-lo, portanto, se eu tiver uma coluna de matrizes, cada valor da matriz será usado para criar uma linha separada. Por exemplo, id | name | likes ...

1 a resposta

Como usar uma coleção de transmissão em um udf?

Como usar uma coleção de transmissão no Spark SQL 1.6.1 udf. O udf deve ser chamado a partir do SQL principal, como mostrado abaixo sqlContext.sql("""Select col1,col2,udf_1(key) as value_from_udf FROM table_a""") udf_1() deve olhar através de ...

2 a resposta

Divisão de linha em várias linhas no shell spark

Importei dados no dataframe Spark no shell de spark. Os dados são preenchidos como: Col1 | Col2 | Col3 | Col4 A1 | 11 | B2 | a|b;1;0xFFFFFF A1 | 12 | B1 | 2 A2 | 12 | B2 | 0xFFF45BAqui na Col4, os valores são de tipos diferentes e ...

5 a resposta

Como fatiar e somar elementos da coluna array?

Eu gostaria desum (ou execute outras funções agregadas também) na coluna da matriz usando o SparkSQL. Eu tenho uma mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

3 a resposta

Juntando quadros de dados Spark na chave

Eu construí dois quadros de dados. Como podemos juntar vários quadros de dados Spark? Por exemplo : PersonDf, ProfileDf com uma coluna comum comopersonId como (tecla). Agora, como podemos ter um Dataframe combinandoPersonDf eProfileDf?

2 a resposta

como ler json com esquema no spark dataframes / spark sql

sql / dataframes, por favor me ajude ou forneça uma boa sugestão sobre como ler este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...