Resultados da pesquisa a pedido "apache-spark-sql"

Estou tentando filtrar o período dos seguintes dados usando blocos de dados, que retorna nulo como resposta. Meus dados csv se parecem com: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 103, DDD, ...

apache-spark user-defined-functions java aggregate-functions

1 a resposta

Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL

Estou tentando criar uma função agregada definida pelo usuário (UDAF) em Java usando o Apache Spark SQL que retorna várias matrizes na conclusão. Pesquisei on-line e não consigo encontrar exemplos ou sugestões sobre como fazer isso. Sou capaz de ...

apache-spark

2 a resposta

Aplique a mesma função a todos os campos da linha de dataframe spark

Eu tenho o dataframe no qual tenho cerca de 1000s (variáveis) colunas. Eu quero fazer todos os valores em maiúsculas. Aqui está a abordagem em que pensei, você pode sugerir se esse é o melhor caminho. Take rowEncontre o esquema e armazene na ...

apache-spark

1 a resposta

Spark 1.5.1 não funciona com o hive jdbc 1.2.0

Estou tentando executar a consulta de seção usando o spark 1.5.1 no modo autônomo e a versão 1.2.0 jdbc da seção. Aqui está o meu pedaço de código: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static ...

apache-spark scala

3 a resposta

Como agregar valores na coleção após groupBy?

Eu tenho um quadro de dados com esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Procurando uma maneira de agrupar (ou talvez acumular?) Esse quadro de dados por visitorid, onde as colunas trackingIds e ...

python pyspark apache-spark datetime

2 a resposta

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...

dataframe apache-spark pyspark python

2 a resposta

Spark adiciona nova coluna ao quadro de dados com valor da linha anterior

Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...

python apache-spark pyspark

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

apache-spark

2 a resposta

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...

csv apache-spark parquet

1 a resposta

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...

Página 42 do 52

40 414243 44

Resultados da pesquisa a pedido "apache-spark-sql"

Como filtrar por período no Spark SQL

Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL

Aplique a mesma função a todos os campos da linha de dataframe spark

Tags populares

Spark 1.5.1 não funciona com o hive jdbc 1.2.0

Como agregar valores na coleção após groupBy?

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Spark adiciona nova coluna ao quadro de dados com valor da linha anterior

O pyspark divide uma coluna em várias colunas sem pandas

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares