Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso

Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...

1 a resposta

Como obter chaves e valores da coluna MapType no SparkSQL DataFrame

Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...

2 a resposta

Executar uma junção digitada no Scala com conjuntos de dados Spark

Gosto de conjuntos de dados Spark, pois eles me fornecem erros de análise e sintaxe em tempo de compilação e também me permitem trabalhar com getters em vez de nomes / números codificados. A maioria dos cálculos pode ser realizada com as APIs de ...

1 a resposta

Como executar operações matemáticas com duas colunas no dataframe usando o pyspark

Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...

1 a resposta

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...

1 a resposta

Arrays de mesclagem / combinação de faíscas no grupo

O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...

1 a resposta

Como usar o Column.isin em Java?

Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...

1 a resposta

Qual é o tamanho máximo para um objeto de transmissão no Spark?

Ao usar o Dataframetransmissão [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] função ou o ...

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...