Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como implementar a condição Like no SparkSQL?

Como escrevo a instrução SQL para alcançar a meta como a seguinte instrução: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Obrigado.

1 a resposta

Como processar RDDs usando uma classe Python?

Estou implementando um modelo no Spark como uma classe python e sempre que tento mapear um método de classe para um RDD, ele falha. Meu código atual é mais complicado, mas esta versão simplificada está no centro do problema: class model(object): ...

1 a resposta

Armazenando em cache resultados intermediários no pipeline Spark ML

Ultimamente, estou planejando migrar meu código ML python autônomo para ativar. O pipeline de ML emspark.ml é bastante útil, com API simplificada para encadear estágios de algoritmos e pesquisa na grade de hiperparâmetros. Ainda assim, achei seu ...

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

2 a resposta

Como particionar por chave no Spark?

Dado que os documentos do HashPartitioner dizem: O [HashPartitioner] implementa o particionamento baseado em hash usando o Object.hashCode do Java. Digamos que eu queira particionarDeviceData por suakind. case class DeviceData(kind: String, ...

1 a resposta

O pushdown de predicado de faísca funciona com o JDBC?

De acordo comesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] O Catalyst aplica otimizações lógicas, como pushdown de predicado. O otimizador pode enviar predicados de filtro para ...

1 a resposta

SparkSQL - Função Lag?

Eu vejo nissoPostagem do DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , há suporte para funções de janela no SparkSql, em particular, estou tentando usar a função de janela lag (). Eu tenho ...

1 a resposta

Passando funções de classe para o PySpark RDD

Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...

1 a resposta

Spark MLlib LDA, como inferir a distribuição de tópicos de um novo documento invisível?

Estou interessado em aplicar a modelagem de tópicos LDA usando o Spark MLlib. Eu verifiquei o código e as explicações emaqui [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] mas não consegui encontrar ...

2 a resposta

Como usar a consulta SQL para definir a tabela no dbtable?

NoJDBC para outros bancos de dados [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Eu encontrei a seguinte explicação dedbtable parâmetro: A tabela JDBC que deve ser lida. Observe que qualquer coisa que ...