Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Como definir o esquema para o tipo personalizado no Spark SQL?

O código de exemplo a seguir tenta colocar alguns objetos de caso em um quadro de dados. O código inclui a definição de uma hierarquia de objetos de caso e uma classe de caso usando esta característica: import org.apache.spark.{SparkContext, ...

1 a resposta

Como implementar a condição Like no SparkSQL?

Como escrevo a instrução SQL para alcançar a meta como a seguinte instrução: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Obrigado.

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

1 a resposta

O pushdown de predicado de faísca funciona com o JDBC?

De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...

1 a resposta

SparkSQL - Função Lag?

Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...

3 a resposta

Qual é a melhor maneira de definir métodos personalizados em um DataFrame?

Eu preciso definir métodos personalizados no DataFrame. Qual é a melhor maneira de fazer isso? A solução deve ser escalável, pois pretendo definir um número significativo de métodos personalizados. Minha abordagem atual é criar uma classe ...

1 a resposta

Salvando / exportando o DataFrame transformado de volta para JDBC / MySQL

Estou tentando descobrir como usar o novoDataFrameWriter para gravar dados de volta em um banco de dados JDBC. Não consigo encontrar nenhuma documentação para isso, embora olhando para o código-fonte pareça que deveria ser possível. Um exemplo ...

2 a resposta

Como usar a consulta SQL para definir a tabela no dbtable?

NoJDBC para outros bancos de dados [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Eu encontrei a seguinte explicação dedbtable parâmetro: A tabela JDBC que deve ser lida. Observe que qualquer coisa que ...

1 a resposta

Como filtrar um spark dataframe contra outro dataframe

Estou tentando filtrar um dataframe contra outro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Agora eu quero ...

11 a resposta

Como verificar se o dataframe do spark está vazio

Agora, eu tenho que usardf.count > 0 para verificar se oDataFrame está vazio ou não. Mas é meio ineficiente. Existe alguma maneira melhor de fazer isso. Obrigado. PS: Quero verificar se está vazio, para salvar apenas oDataFrame se não estiver vazio