Resultados da pesquisa a pedido "apache-spark-sql"
Como filtrar por período no Spark SQL
Estou tentando filtrar o período dos seguintes dados usando blocos de dados, que retorna nulo como resposta. Meus dados csv se parecem com: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103, DDD, ...
Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL
Estou tentando criar uma função agregada definida pelo usuário (UDAF) em Java usando o Apache Spark SQL que retorna várias matrizes na conclusão. Pesquisei on-line e não consigo encontrar exemplos ou sugestões sobre como fazer isso. Sou capaz de ...
Aplique a mesma função a todos os campos da linha de dataframe spark
Eu tenho o dataframe no qual tenho cerca de 1000s (variáveis) colunas. Eu quero fazer todos os valores em maiúsculas. Aqui está a abordagem em que pensei, você pode sugerir se esse é o melhor caminho. Take rowEncontre o esquema e armazene na ...
Spark 1.5.1 não funciona com o hive jdbc 1.2.0
Estou tentando executar a consulta de seção usando o spark 1.5.1 no modo autônomo e a versão 1.2.0 jdbc da seção. Aqui está o meu pedaço de código: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static ...
Como agregar valores na coleção após groupBy?
Eu tenho um quadro de dados com esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Procurando uma maneira de agrupar (ou talvez acumular?) Esse quadro de dados por visitorid, onde as colunas trackingIds e ...
PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos
Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...
Spark adiciona nova coluna ao quadro de dados com valor da linha anterior
Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...
O pyspark divide uma coluna em várias colunas sem pandas
minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...
Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela
Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...
Spark SQL - carregando arquivos csv / psv com alguns registros malformados
Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...