Resultados da pesquisa a pedido "pyspark"
Como visualizar os logs de um trabalho de faísca depois de concluído e o contexto fechado?
eu estou correndopyspark, spark 1.3, standalone mode, client mode. Estou tentando investigar meu trabalho centelhado, olhando para os trabalhos do passado e comparando-os. Quero visualizar os logs, as definições de configuração nas quais os ...
Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas
Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...
Spark 2.0.0 lendo dados json com esquema variável
Estou tentando processar o valor de um mês de tráfego de site, que é armazenado em um bucket S3 como json (um objeto json por linha / tráfego de site atingido). A quantidade de dados é grande o suficiente para que eu não possa pedir ao Spark para ...
Operador de comparação no PySpark (não é igual a /! =)
Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...
Arquivo de configuração para definir a estrutura do esquema JSON no PySpark
Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...
Encaminhar valores ausentes no Spark / Python
Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...
Como construir uma matriz esparsa no PySpark?
Eu sou novo no Spark. Gostaria de transformar uma matriz esparsa em uma matriz de identificação de item de identificação do usuário especificamente para um mecanismo de recomendação. Eu sei como eu faria isso em python. Como alguém faz isso no ...
Integre o PySpark ao Jupyter Notebook
Eu estou seguindo issolocal [https://www.dataquest.io/blog/pyspark-installation-guide/]instalar o Jupyter Notebook, PySpark e integrar os dois. Quando precisei criar o "perfil Jupyter", li que "os perfis Jupyter" não existem mais. Então, ...
Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)
Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...
Para limitar o grande RDD
Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...