Resultados da pesquisa a pedido "spark-dataframe"

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

apache-spark csv scala

4 a resposta

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...

lazy-evaluation rdd apache-spark distributed-computing

2 a resposta

Como forçar o Spark a avaliar as operações do DataFrame em linha

De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...

parquet apache-spark

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

apache-spark scala

2 a resposta

Spark 2.0 ausente implícito no spark

Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...

rdd pyspark-sql apache-spark pyspark

1 a resposta

Apache spark lidando com instruções de caso

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

apache-spark-sql pyspark apache-spark

1 a resposta

Como desativar a notação científica no pyspark?

Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...

pyspark

7 a resposta

Operador de quadro de dados Pyspark LIKE

Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...

scala filter apache-spark

2 a resposta

Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto

Estou usando o Spark 1.4.0, é o que tenho até agora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))A funçãoaceso [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] converte um ...

group-by apache-spark pyspark-sql

1 a resposta

GroupByKey e crie listas de valores pyspark sql dataframe

Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...

Página 3 do 12

1 234 5

Resultados da pesquisa a pedido "spark-dataframe"

PySpark Como ler CSV no Dataframe e manipulá-lo

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Como forçar o Spark a avaliar as operações do DataFrame em linha

Tags populares

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Spark 2.0 ausente implícito no spark

Apache spark lidando com instruções de caso

Como desativar a notação científica no pyspark?

Operador de quadro de dados Pyspark LIKE

Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto

GroupByKey e crie listas de valores pyspark sql dataframe

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "spark-dataframe"

Tags populares