Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Obter o tamanho / comprimento de uma coluna da matriz

Eu sou novo na programação Scala e esta é a minha pergunta: Como contar o número de strings para cada linha? Meu Dataframe é composto por uma única coluna do tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

1 a resposta

Como o dataframereader pode ler http?

Meu ambiente de desenvolvimento: IntellijMavenScala2.10.6win7 x64Dependências: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...

3 a resposta

Como obter compensações Kafka para consultas estruturadas para gerenciamento manual e confiável de compensações?

O Spark 2.2 introduziu uma fonte de streaming estruturada do Kafka. Pelo que entendi, ele conta com o diretório de ponto de verificação do HDFS para armazenar compensações e garantir uma entrega de mensagem "exatamente uma vez". Mas docas ...

1 a resposta

converter string com nanossegundo em timestamp no spark

Existe uma maneira de converter um valor de carimbo de data / hora com nano segundos para carimbo de data e hora no Spark. Recebo a entrada de um arquivo csv e o valor do carimbo de data e hora é do formato12-12-2015 14:09:36.992415+01:00. Este é ...

1 a resposta

Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente

Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...

2 a resposta

o agrupamento do spark dataframe não conta nulos

Eu tenho um Spark DataFrame que é agrupado por uma coluna agregada com uma contagem: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

2 a resposta

Pseudocoluna no Spark JDBC

Estou usando uma consulta para buscar dados do MYSQL da seguinte maneira: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...

1 a resposta

Contar o número de valores ausentes em um Spark de quadro de dados

eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...

1 a resposta

Amostragem estratificada com pyspark

Eu tenho uma faíscaDataFrame que tem uma coluna que temmuitos zerose muito poucos (apenas 0,01%). Gostaria de fazer uma subamostra aleatória, mas estratificada - para que ela mantenha a proporção de 1s para 0s nessa coluna. É possível fazer no ...

2 a resposta

como obter meses, anos de diferença entre duas datas em sparksql

Estou recebendo o erro: org.apache.spark.sql.analysisexception: cannot resolve 'year'Meus dados de entrada: 1,2012-07-21,2014-04-09Meu código: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...