Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Iniciando o Ipython com Spark 2

Eu tenho meu script de inicialização do ipthon da seguinte maneira IPYTHON_OPTS="notebook --port 8889 \ --notebook-dir='/usr/hdp/2.3.2.0-2950/spark/' \ --ip='*' --no-browser" pyspark Ele funciona bem para o Spark mais antigo. Mas quando mudo ...

3 a resposta

Spark UDF para StructType / Row

Eu tenho uma coluna "StructType" no Spark Dataframe que possui uma matriz e uma string como subcampos. Gostaria de modificar a matriz e retornar a nova coluna do mesmo tipo. Posso processá-lo com UDF? Ou quais são as alternativas? import ...

1 a resposta

Como filtrar registros duplicados com várias chaves no Spark Dataframe?

Eu tenho dois quadros de dados. Desejo excluir alguns registros no Data Frame-A com base em alguns valores de coluna comuns no Data Frame-B. Por exemplo: Quadro de dados A: A B C D 1 2 3 4 3 4 5 7 4 7 9 6 2 5 7 9 Quadro de Dados-B: A B C D 1 2 ...

6 a resposta

Como criar SparkSession a partir do SparkContext existente

Eu tenho um aplicativo Spark que usando a nova API Spark 2.0 comSparkSession. Estou construindo esse aplicativo em cima de outro aplicativo que está usandoSparkContext. Eu gostaria de passarSparkContext para o meu aplicativo ...

1 a resposta

Como criar um esquema a partir do arquivo CSV e persistir / salvar esse esquema em um arquivo?

Eu tenho arquivo CSV com 10 colunas. Half String e half são Inteiros. Qual é o código Scala para: Criar (inferir) o esquemaSalve esse esquema em um arquivoEu tenho isso até agora: import org.apache.spark.sql.SQLContext val sqlContext = new ...

1 a resposta

Como converter Array of Json Strings em Dataset de colunas específicas no Spark 2.2.0?

eu tenho umDataset<String> ds que consiste em linhas json. Exemplo de linha Json (este é apenas um exemplo de uma linha no conjunto de dados) [ "{"name": "foo", "address": {"state": "CA", "country": "USA"}, "docs":[{"subject": "english", ...

1 a resposta

Como processar mensagens Avro enquanto lê um fluxo de mensagens do Kafka?

O código abaixo lê as mensagens do Kafka e as mensagens estão no Avro. Como analiso a mensagem e a coloco em um quadro de dados no Spark 2.2.0? Dataset<Row> df = sparkSession.readStream() .format("kafka") .option("kafka.bootstrap.servers", ...

1 a resposta

Número padrão de partições do Spark RDD

Versão: Spark 1.6.2, Scala 2.10 Estou executando os comandos abaixospark-shell. Estou tentando ver o número de partições que o Spark está criando por padrão. val rdd1 = sc.parallelize(1 to 10) println(rdd1.getNumPartitions) // ==> Result is 4 ...

3 a resposta

Achatando o JSON na estrutura tabular usando o Spark-Scala RDD only fucntion

Aninhei JSON e gostaria de ter saída na estrutura tabular. Sou capaz de analisar os valores JSON individualmente, mas com alguns problemas na tabulação. Sou capaz de fazê-lo via dataframe facilmente. Mas eu quero fazê-lo usando as funções "RDD ...

1 a resposta

dependência não resolvida sbt para spark-cassandra-connector 2.0.2

build.sbt: val sparkVersion = "2.1.1"; libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided"; libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % "provided"; libraryDependencies += ...