Resultados da pesquisa a pedido "apache-spark-sql"
Obter o tamanho / comprimento de uma coluna da matriz
Eu sou novo na programação Scala e esta é a minha pergunta: Como contar o número de strings para cada linha? Meu Dataframe é composto por uma única coluna do tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]
Como o dataframereader pode ler http?
Meu ambiente de desenvolvimento: IntellijMavenScala2.10.6win7 x64Dependências: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...
Como obter compensações Kafka para consultas estruturadas para gerenciamento manual e confiável de compensações?
O Spark 2.2 introduziu uma fonte de streaming estruturada do Kafka. Pelo que entendi, ele conta com o diretório de ponto de verificação do HDFS para armazenar compensações e garantir uma entrega de mensagem "exatamente uma vez". Mas docas ...
converter string com nanossegundo em timestamp no spark
Existe uma maneira de converter um valor de carimbo de data / hora com nano segundos para carimbo de data e hora no Spark. Recebo a entrada de um arquivo csv e o valor do carimbo de data e hora é do formato12-12-2015 14:09:36.992415+01:00. Este é ...
Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente
Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...
o agrupamento do spark dataframe não conta nulos
Eu tenho um Spark DataFrame que é agrupado por uma coluna agregada com uma contagem: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...
Pseudocoluna no Spark JDBC
Estou usando uma consulta para buscar dados do MYSQL da seguinte maneira: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...
Contar o número de valores ausentes em um Spark de quadro de dados
eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...
Amostragem estratificada com pyspark
Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...
como obter meses, anos de diferença entre duas datas em sparksql
Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...