Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Servir previsões em tempo real com o modelo Spark ML treinado [duplicado]

Esta pergunta já tem uma resposta aqui: Como servir um modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respostasNo momento, estamos testando um mecanismo de previsão baseado na implementação do LDA do Spark em ...

2 a resposta

o agrupamento do spark dataframe não conta nulos

Eu tenho um Spark DataFrame que é agrupado por uma coluna agregada com uma contagem: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

2 a resposta

Pseudocoluna no Spark JDBC

Estou usando uma consulta para buscar dados do MYSQL da seguinte maneira: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...

1 a resposta

Média móvel ponderada no Pyspark

Estou escrevendo um algoritmo de detecção de anomalias para séries temporais no Pyspark. Quero calcular uma média móvel ponderada de uma janela (-3,3) ou (-4,4). No momento, estou usando as funções lag e lead over window e multiplicando-as por um ...

1 a resposta

Contar o número de valores ausentes em um Spark de quadro de dados

eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...

1 a resposta

Tipos de dados personalizados para colunas DataFrame ao usar o Spark JDBC

Sei que posso usar um dialeto personalizado para ter um mapeamento correto entre meu db e o spark, mas como posso criar um esquema de tabela personalizado com tipos e comprimentos de dados de campo específicos quando uso o spark'sjdbc.write ...

1 a resposta

Spark / scala cria um conjunto de dados vazio usando genéricos em uma característica

Eu tenho uma característica chamada que usa um parâmetro de tipo e um de seus métodos precisa ser capaz de criar um conjunto de dados digitado vazio. trait MyTrait[T] { val sparkSession: SparkSession val spark = sparkSession.session val ...

1 a resposta

Como filtrar na correspondência parcial usando o sparklyr

Eu sou novo no sparklyr (mas familiarizado com o spark e o pyspark) e tenho uma pergunta realmente básica. Estou tentando filtrar uma coluna com base em uma correspondência parcial. No dplyr, eu escreveria minha operação da ...

1 a resposta

Amostragem estratificada com pyspark

Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...

2 a resposta

como obter meses, anos de diferença entre duas datas em sparksql

Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...