Resultados da pesquisa a pedido "apache-spark"
Servir previsões em tempo real com o modelo Spark ML treinado [duplicado]
Esta pergunta já tem uma resposta aqui: Como servir um modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respostasNo momento, estamos testando um mecanismo de previsão baseado na implementação do LDA do Spark em ...
o agrupamento do spark dataframe não conta nulos
Eu tenho um Spark DataFrame que é agrupado por uma coluna agregada com uma contagem: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...
Pseudocoluna no Spark JDBC
Estou usando uma consulta para buscar dados do MYSQL da seguinte maneira: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...
Média móvel ponderada no Pyspark
Estou escrevendo um algoritmo de detecção de anomalias para séries temporais no Pyspark. Quero calcular uma média móvel ponderada de uma janela (-3,3) ou (-4,4). No momento, estou usando as funções lag e lead over window e multiplicando-as por um ...
Contar o número de valores ausentes em um Spark de quadro de dados
eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...
Tipos de dados personalizados para colunas DataFrame ao usar o Spark JDBC
Sei que posso usar um dialeto personalizado para ter um mapeamento correto entre meu db e o spark, mas como posso criar um esquema de tabela personalizado com tipos e comprimentos de dados de campo específicos quando uso o spark'sjdbc.write ...
Spark / scala cria um conjunto de dados vazio usando genéricos em uma característica
Eu tenho uma característica chamada que usa um parâmetro de tipo e um de seus métodos precisa ser capaz de criar um conjunto de dados digitado vazio. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val ...
Como filtrar na correspondência parcial usando o sparklyr
Eu sou novo no sparklyr (mas familiarizado com o spark e o pyspark) e tenho uma pergunta realmente básica. Estou tentando filtrar uma coluna com base em uma correspondência parcial. No dplyr, eu escreveria minha operação da ...
Amostragem estratificada com pyspark
Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...
como obter meses, anos de diferença entre duas datas em sparksql
Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...