Resultados da pesquisa a pedido "apache-spark-sql"
Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso
Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...
Como obter chaves e valores da coluna MapType no SparkSQL DataFrame
Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...
Executar uma junção digitada no Scala com conjuntos de dados Spark
Gosto de conjuntos de dados Spark, pois eles me fornecem erros de análise e sintaxe em tempo de compilação e também me permitem trabalhar com getters em vez de nomes / números codificados. A maioria dos cálculos pode ser realizada com as APIs de ...
Como executar operações matemáticas com duas colunas no dataframe usando o pyspark
Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...
Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação
Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...
PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente
Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...
Arrays de mesclagem / combinação de faíscas no grupo
O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...
Como usar o Column.isin em Java?
Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...
Qual é o tamanho máximo para um objeto de transmissão no Spark?
Ao usar o Dataframetransmissão [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] função ou o ...
Exceção do Spark ao converter uma tabela MySQL em parquet
Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...