Resultados da pesquisa a pedido "pyspark"

1 a resposta

Como visualizar os logs de um trabalho de faísca depois de concluído e o contexto fechado?

eu estou correndopyspark, spark 1.3, standalone mode, client mode. Estou tentando investigar meu trabalho centelhado, olhando para os trabalhos do passado e comparando-os. Quero visualizar os logs, as definições de configuração nas quais os ...

1 a resposta

Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas

Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...

1 a resposta

Spark 2.0.0 lendo dados json com esquema variável

Estou tentando processar o valor de um mês de tráfego de site, que é armazenado em um bucket S3 como json (um objeto json por linha / tráfego de site atingido). A quantidade de dados é grande o suficiente para que eu não possa pedir ao Spark para ...

2 a resposta

Operador de comparação no PySpark (não é igual a /! =)

Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...

1 a resposta

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...

1 a resposta

Encaminhar valores ausentes no Spark / Python

Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...

1 a resposta

Como construir uma matriz esparsa no PySpark?

Eu sou novo no Spark. Gostaria de transformar uma matriz esparsa em uma matriz de identificação de item de identificação do usuário especificamente para um mecanismo de recomendação. Eu sei como eu faria isso em python. Como alguém faz isso no ...

2 a resposta

Integre o PySpark ao Jupyter Notebook

Eu estou seguindo issolocal [https://www.dataquest.io/blog/pyspark-installation-guide/]instalar o Jupyter Notebook, PySpark e integrar os dois. Quando precisei criar o "perfil Jupyter", li que "os perfis Jupyter" não existem mais. Então, ...

1 a resposta

Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)

Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...

1 a resposta

Para limitar o grande RDD

Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...