Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

PySpark Como ler CSV no Dataframe e manipulá-lo

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

4 a resposta

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...

2 a resposta

Como forçar o Spark a avaliar as operações do DataFrame em linha

De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

2 a resposta

Spark 2.0 ausente implícito no spark

Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...

1 a resposta

Apache spark lidando com instruções de caso

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

1 a resposta

Como desativar a notação científica no pyspark?

Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...

7 a resposta

Operador de quadro de dados Pyspark LIKE

Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...

2 a resposta

Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto

Estou usando o Spark 1.4.0, é o que tenho até agora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))A funçãoaceso [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] converte um ...

1 a resposta

GroupByKey e crie listas de valores pyspark sql dataframe

Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...