Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Como filtrar por período no Spark SQL

Estou tentando filtrar o período dos seguintes dados usando blocos de dados, que retorna nulo como resposta. Meus dados csv se parecem com: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103, DDD, ...

1 a resposta

Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL

Estou tentando criar uma função agregada definida pelo usuário (UDAF) em Java usando o Apache Spark SQL que retorna várias matrizes na conclusão. Pesquisei on-line e não consigo encontrar exemplos ou sugestões sobre como fazer isso. Sou capaz de ...

2 a resposta

Aplique a mesma função a todos os campos da linha de dataframe spark

Eu tenho o dataframe no qual tenho cerca de 1000s (variáveis) colunas. Eu quero fazer todos os valores em maiúsculas. Aqui está a abordagem em que pensei, você pode sugerir se esse é o melhor caminho. Take rowEncontre o esquema e armazene na ...

1 a resposta

Spark 1.5.1 não funciona com o hive jdbc 1.2.0

Estou tentando executar a consulta de seção usando o spark 1.5.1 no modo autônomo e a versão 1.2.0 jdbc da seção. Aqui está o meu pedaço de código: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static ...

3 a resposta

Como agregar valores na coleção após groupBy?

Eu tenho um quadro de dados com esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Procurando uma maneira de agrupar (ou talvez acumular?) Esse quadro de dados por visitorid, onde as colunas trackingIds e ...

2 a resposta

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...

2 a resposta

Spark adiciona nova coluna ao quadro de dados com valor da linha anterior

Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

2 a resposta

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...

1 a resposta

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...