Resultados da pesquisa a pedido "apache-spark"
Como passar variáveis de ambiente para o driver spark no modo de cluster com envio por spark
spark-submit permite configurar as variáveis de ambiente do executor com--conf spark.executorEnv.FOO=bar, e a API REST do Spark permite passar algumas variáveis de ambiente com oenvironmentVariables campo. Infelizmente, não encontrei nada ...
Por que meus logs no nível do aplicativo desaparecem quando executados no oozie?
Estou usando oozie no ambiente CDH5. Também estou usando o console da web oozie. Não consigo ver nenhum dos logs do meu aplicativo. Eu posso ver logs do hadoop, spark logs, etc; mas não vejo logs específicos do aplicativo. Na minha aplicação, ...
Como nivelar uma estrutura em um dataframe Spark?
Eu tenho um quadro de dados com a seguinte estrutura: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...
Definindo um UDF que aceita uma matriz de objetos em um Spark DataFrame?
Ao trabalhar com os DataFrames do Spark, são necessárias funções definidas pelo usuário (UDFs) para mapear dados em colunas. UDFs exigem que os tipos de argumento sejam especificados explicitamente. No meu caso, preciso manipular uma coluna ...
Sobrescrever partições específicas no método de gravação spark dataframe
Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...
Mesclar arquivos CSV de saída do Spark com um único cabeçalho
Quero criar um pipeline de processamento de dados na AWS para, eventualmente, usar os dados processados para o Machine Learning. Eu tenho um script Scala que pega dados brutos do S3, os processa e os grava no HDFS ou mesmo no S3 comSpark-CSV. Eu ...
Explodir no PySpark
Gostaria de transformar de um DataFrame que contém listas de palavras em um DataFrame com cada palavra em sua própria linha. Como explodir em uma coluna em um DataFrame? Aqui está um exemplo com algumas das minhas tentativas em que você ...
Impacto no desempenho da API RDD vs UDFs combinada com a API DataFrame
(Pergunta específica da Scala.) Embora os documentos do Spark incentivem o uso da API do DataFrame sempre que possível, se a API do DataFrame for insuficiente, a escolha geralmente é entre voltar à API RDD ou usar UDFs. Existe diferença de ...
SparkR do Rstudio - fornece erro em invokeJava (isStatic = TRUE, className, methodName,…):
Estou usando o RStudio. Depois de criar a sessão, se eu tentar criar o dataframe usando dados R, ele dá erro. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") Sys.setenv(HADOOP_HOME = "E:/winutils") ...
Como criar o DataFrame a partir da lista de iteráveis do Scala?
Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...