Resultados da pesquisa a pedido "apache-spark-sql"

0 a resposta

Spark 2.0 - "Tabela ou exibição não encontrada" ao consultar o Hive [fechado]

Ao consultar o Hive viaspark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Emite um erro: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename org.apache.spark.sql.AnalysisException: ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

1 a resposta

Como executar transformações independentes em paralelo usando o PySpark?

Estou tentando executar 2 funções fazendo transformações completamente independentes em um único RDD em paralelo usando o PySpark. Quais são alguns métodos para fazer o mesmo? def doXTransforms(sampleRDD): (X transforms) def ...

9 a resposta

Sobrescrever partições específicas no método de gravação spark dataframe

Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...

2 a resposta

Explodir no PySpark

Gostaria de transformar de um DataFrame que contém listas de palavras em um DataFrame com cada palavra em sua própria linha. Como explodir em uma coluna em um DataFrame? Aqui está um exemplo com algumas das minhas tentativas em que você ...

4 a resposta

Como nivelar uma estrutura em um dataframe Spark?

Eu tenho um quadro de dados com a seguinte estrutura: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...

1 a resposta

Definindo um UDF que aceita uma matriz de objetos em um Spark DataFrame?

Ao trabalhar com os DataFrames do Spark, são necessárias funções definidas pelo usuário (UDFs) para mapear dados em colunas. UDFs exigem que os tipos de argumento sejam especificados explicitamente. No meu caso, preciso manipular uma coluna ...

2 a resposta

obter valor do quadro de dados

Em Scala eu posso fazerget(#) ougetAs[Type](#) para obter valores de um quadro de dados. Como devo fazer issopyspark? Eu tenho duas colunas DataFrame:item(string) esalesNum(integers). Eu faço umgroupby emean para obter uma média desses números ...

1 a resposta

Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame

(Pergunta específica da Scala.) Embora os documentos do Spark incentivem o uso da API do DataFrame sempre que possível, se a API do DataFrame for insuficiente, a escolha geralmente é entre voltar à API RDD ou usar UDFs. Existe diferença de ...

5 a resposta

Como criar o DataFrame a partir da lista de iteráveis do Scala?

Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...