Resultados da pesquisa a pedido "apache-spark"
Como construir o Dataframe a partir de um arquivo do Excel (xls, xlsx) no Scala Spark?
Eu tenho um grandeExcel(xlsx and xls) arquivo com várias folhas e preciso convertê-lo paraRDD ouDataframe para que possa ser associado a outrosdataframe mais tarde. Eu estava pensando em usarApache POI [https://poi.apache.org/]e salve-o comoCSV e ...
É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark?
É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark? Por exemplo, tenho milhares de faturas em pdf e quero ler os dados dessas e executar algumas análises sobre isso. Quais etapas devo executar ...
Como concatenar várias colunas em uma única coluna (sem conhecimento prévio sobre seu número)?
Digamos que eu tenha o seguinte quadro de dados: agentName|original_dt|parsed_dt| user|text| +----------+-----------+---------+-------+----+ |qwertyuiop| 0| 0|16102.0| 0| Desejo criar um novo quadro de dados com mais uma coluna que tenha ...
Como as tarefas são distribuídas dentro de um cluster Spark?
Então, eu tenho uma entrada que consiste em um conjunto de dados e vários algoritmos ML (com ajuste de parâmetros) usando o scikit-learn. Eu tentei algumas tentativas de como executar isso da maneira mais eficiente possível, mas neste momento ...
Copie arquivos (config) do HDFS para o diretório de trabalho local de todos os executores spark
Eu estou procurando como copiar uma pasta com arquivos de dependências de recursos do HDFS para um diretório de trabalho local de cada executor de spark usando Java. Eu estava pensando em usar a opção --files FILES de envio de spark, mas ...
Acessando a coleção de DStreams
Estou tentando acessar uma coleção de DStreams filtrados obtidos como na solução para esta pergunta:Spark Streaming - Melhor maneira de dividir o fluxo de entrada com base no filtro ...
Como forçar o inferSchema for CSV a considerar números inteiros como datas (com a opção "dateFormat")?
Eu uso o Spark 2.2.0 Estou lendo um arquivo csv da seguinte maneira: val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile)Há uma coluna de data neste arquivo e ...
Como transformar o DataFrame antes de ingressar na operação?
O código a seguir é usado para extrair classificações da colunaproducts. As fileiras são segundos números em cada par[...]. Por exemplo, no exemplo dado[[222,66],[333,55]] as fileiras são66 e55 para produtos com PK222 e333, adequadamente. Mas o ...
Mesclar lista de listas no pySpark RDD
Eu tenho listas de tuplas que quero combinar em uma lista. Consegui processar os dados usando lambdas e compreensão de lista para onde estou perto de poder usar o reduzidaByKey, mas não sei como mesclar as listas. Então o formato ... [[(0, 14), ...
Transmitir coluna contendo vários formatos de data de sequência para DateTime no Spark
Eu tenho uma coluna de data no meu SparkDataDrame que contém vários formatos de sequência. Gostaria de transmiti-los para DateTime. Os dois formatos na minha coluna são: mm/dd/yyyy; eyyyy-mm-ddMinha solução até agora é usar um UDF para alterar ...