Resultados da pesquisa a pedido "spark-dataframe"

3 a resposta

Como associar dois DataFrames no Scala e Apache Spark?

Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...

2 a resposta

Como passar várias instruções no Spark SQL HiveContext

Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...

1 a resposta

Como permitir que o Spark analise um campo String com escape JSON como um objeto JSON para inferir a estrutura apropriada nos DataFrames?

Eu tenho como entrada um conjunto de arquivos formatados como um único objeto JSON por linha. O problema, no entanto, é que um campo nesses objetos JSON é uma String com escape JSON. Exemplo { "id":1, "name":"some name", ...

1 a resposta

Como ativar a junção cartesiana no Spark 2.0? [duplicado

Esta pergunta já tem uma resposta aqui: spark.sql.crossJoin.enabled para Spark 2.x [/questions/38999140/spark-sql-crossjoin-enabled-for-spark-2-x] 3 respostas Preciso cruzar a junção de 2 dataframe no Spark 2.0 Estou encontrando o ...

2 a resposta

qual é a diferença entre SparkSession e SparkContext? [duplicado

Esta pergunta já tem uma resposta aqui: Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession? [/questions/43802809/difference-between-sparkcontext-javasparkcontext-sqlcontext-and-sparksession] 3 respostas Eu sei apenas a ...

1 a resposta

Determinação do número ideal de partições Spark com base em trabalhadores, núcleos e tamanho do DataFrame

Existem vários conceitos semelhantes, porém diferentes, no Spark-land que envolvem como o trabalho é distribuído em diferentes nós e executado simultaneamente. Especificamente, há: O nó do Driver Spark sparkDriverCount)O número de nós do ...

2 a resposta

Dataframe do filtro por valor NÃO presente na coluna de outro dataframe [duplicado]

Esta pergunta já tem uma resposta aqui: Filter Spark DataFrame com base em outro DataFrame que especifica os critérios da lista negra [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...