Resultados da pesquisa a pedido "apache-spark-sql"
Spark 2.0 - "Tabela ou exibição não encontrada" ao consultar o Hive [fechado]
Ao consultar o Hive viaspark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Emite um erro: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename org.apache.spark.sql.AnalysisException: ...
Spark Dataframe validando nomes de colunas para gravações em parquet (scala)
Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...
Como executar transformações independentes em paralelo usando o PySpark?
Estou tentando executar 2 funções fazendo transformações completamente independentes em um único RDD em paralelo usando o PySpark. Quais são alguns métodos para fazer o mesmo? def doXTransforms(sampleRDD): (X transforms) def ...
Sobrescrever partições específicas no método de gravação spark dataframe
Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...
Explodir no PySpark
Gostaria de transformar de um DataFrame que contém listas de palavras em um DataFrame com cada palavra em sua própria linha. Como explodir em uma coluna em um DataFrame? Aqui está um exemplo com algumas das minhas tentativas em que você ...
Como nivelar uma estrutura em um dataframe Spark?
Eu tenho um quadro de dados com a seguinte estrutura: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...
Definindo um UDF que aceita uma matriz de objetos em um Spark DataFrame?
Ao trabalhar com os DataFrames do Spark, são necessárias funções definidas pelo usuário (UDFs) para mapear dados em colunas. UDFs exigem que os tipos de argumento sejam especificados explicitamente. No meu caso, preciso manipular uma coluna ...
obter valor do quadro de dados
Em Scala eu posso fazerget(#) ougetAs[Type](#) para obter valores de um quadro de dados. Como devo fazer issopyspark? Eu tenho duas colunas DataFrame:item(string) esalesNum(integers). Eu faço umgroupby emean para obter uma média desses números ...
Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame
(Pergunta específica da Scala.) Embora os documentos do Spark incentivem o uso da API do DataFrame sempre que possível, se a API do DataFrame for insuficiente, a escolha geralmente é entre voltar à API RDD ou usar UDFs. Existe diferença de ...
Como criar o DataFrame a partir da lista de iteráveis do Scala?
Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...