Resultados da pesquisa a pedido "apache-spark"
Como implementar a condição Like no SparkSQL?
Como escrevo a instrução SQL para alcançar a meta como a seguinte instrução: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Obrigado.
Como processar RDDs usando uma classe Python?
Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...
Armazenando em cache resultados intermediários no pipeline Spark ML
Ultimamente, estou planejando migrar meu código ML python autônomo para ativar. O pipeline de ML emspark.ml é bastante útil, com API simplificada para encadear estágios de algoritmos e pesquisa na grade de hiperparâmetros. Ainda assim, achei seu ...
PySpark: calcule a média de uma coluna após usar a função de filtro
Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...
Como particionar por chave no Spark?
Dado que os documentos do HashPartitioner dizem: O [HashPartitioner] implementa o particionamento baseado em hash usando o Object.hashCode do Java. Digamos que eu queira particionarDeviceData por suakind. case class DeviceData(kind: String, ...
O pushdown de predicado de faísca funciona com o JDBC?
De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...
SparkSQL - Função Lag?
Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...
Passando funções de classe para o PySpark RDD
Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...
Spark MLlib LDA, como inferir a distribuição de tópicos de um novo documento invisível?
Estou interessado em aplicar a modelagem de tópicos LDA usando o Spark MLlib. Eu verifiquei o código e as explicações emaqui [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] mas não consegui encontrar ...
Como usar a consulta SQL para definir a tabela no dbtable?
NoJDBC para outros bancos de dados [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Eu encontrei a seguinte explicação dedbtable parâmetro: A tabela JDBC que deve ser lida. Observe que qualquer coisa que ...