Resultados da pesquisa a pedido "spark-dataframe"
PySpark Como ler CSV no Dataframe e manipulá-lo
Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...
Como salvar um DataFrame como CSV compactado (compactado com gz)?
Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...
Como forçar o Spark a avaliar as operações do DataFrame em linha
De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...
Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?
Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...
Spark 2.0 ausente implícito no spark
Usando o Spark 2.0, estou vendo que é possível transformar um quadro de dados de linha em um quadro de dados de classes de caso. Quando tento fazer isso, sou recebido com uma mensagem informando para importarspark.implicits._. O problema que ...
Apache spark lidando com instruções de caso
Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...
Como desativar a notação científica no pyspark?
Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...
Operador de quadro de dados Pyspark LIKE
Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...
Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto
Estou usando o Spark 1.4.0, é o que tenho até agora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))A funçãoaceso [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] converte um ...
GroupByKey e crie listas de valores pyspark sql dataframe
Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...