Resultados da pesquisa a pedido "apache-spark"
Iniciando o Ipython com Spark 2
Eu tenho meu script de inicialização do ipthon da seguinte maneira IPYTHON_OPTS="notebook --port 8889 \ --notebook-dir='/usr/hdp/2.3.2.0-2950/spark/' \ --ip='*' --no-browser" pyspark Ele funciona bem para o Spark mais antigo. Mas quando mudo ...
Spark UDF para StructType / Row
Eu tenho uma coluna "StructType" no Spark Dataframe que possui uma matriz e uma string como subcampos. Gostaria de modificar a matriz e retornar a nova coluna do mesmo tipo. Posso processá-lo com UDF? Ou quais são as alternativas? import ...
Como filtrar registros duplicados com várias chaves no Spark Dataframe?
Eu tenho dois quadros de dados. Desejo excluir alguns registros no Data Frame-A com base em alguns valores de coluna comuns no Data Frame-B. Por exemplo: Quadro de dados A: A B C D 1 2 3 4 3 4 5 7 4 7 9 6 2 5 7 9 Quadro de Dados-B: A B C D 1 2 ...
Como criar SparkSession a partir do SparkContext existente
Eu tenho um aplicativo Spark que usando a nova API Spark 2.0 comSparkSession. Estou construindo esse aplicativo em cima de outro aplicativo que está usandoSparkContext. Eu gostaria de passarSparkContext para o meu aplicativo ...
Como criar um esquema a partir do arquivo CSV e persistir / salvar esse esquema em um arquivo?
Eu tenho arquivo CSV com 10 colunas. Half String e half são Inteiros. Qual é o código Scala para: Criar (inferir) o esquemaSalve esse esquema em um arquivoEu tenho isso até agora: import org.apache.spark.sql.SQLContext val sqlContext = new ...
Como converter Array of Json Strings em Dataset de colunas específicas no Spark 2.2.0?
eu tenho umDataset<String> ds que consiste em linhas json. Exemplo de linha Json (este é apenas um exemplo de uma linha no conjunto de dados) [ "{"name": "foo", "address": {"state": "CA", "country": "USA"}, "docs":[{"subject": "english", ...
Como processar mensagens Avro enquanto lê um fluxo de mensagens do Kafka?
O código abaixo lê as mensagens do Kafka e as mensagens estão no Avro. Como analiso a mensagem e a coloco em um quadro de dados no Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() .format("kafka") .option("kafka.bootstrap.servers", ...
Número padrão de partições do Spark RDD
Versão: Spark 1.6.2, Scala 2.10 Estou executando os comandos abaixospark-shell. Estou tentando ver o número de partições que o Spark está criando por padrão. val rdd1 = sc.parallelize(1 to 10) println(rdd1.getNumPartitions) // ==> Result is 4 ...
Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion
Aninhei JSON e gostaria de ter saída na estrutura tabular. Sou capaz de analisar os valores JSON individualmente, mas com alguns problemas na tabulação. Sou capaz de fazê-lo via dataframe facilmente. Mas eu quero fazê-lo usando as funções "RDD ...
dependência não resolvida sbt para spark-cassandra-connector 2.0.2
build.sbt: val sparkVersion = "2.1.1"; libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided"; libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % "provided"; libraryDependencies += ...