Resultados da pesquisa a pedido "pyspark"

0 a resposta

Erro numpy ao imprimir um RDD no Spark com Ipython

Estou tentando imprimir umRDD usandoSpark noIpython e quando faço isso, recebo este erro: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...

0 a resposta

Como "reduzir" várias tabelas json armazenadas em uma coluna de um RDD para uma única tabela RDD da forma mais eficiente possível

O acesso simultâneo para acrescentar linhas usando a união em um quadro de dados usando o código a seguir funcionará corretamente? Atualmente mostrando erro de tipo from pyspark.sql.types import * schema = StructType([ ...

0 a resposta

Transmitir uma classe definida pelo usuário no Spark

Estou tentando transmitir uma variável definida pelo usuário em um aplicativo PySpark, mas sempre tenho o seguinte erro: File "/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 174, in main process() ...

0 a resposta

Py4JJavaError no spark

Eu tenho abaixo código através do qual eu estou tentando fazer regex encontrar e substituir no spark usando pyspark. Arquivokey tem 182417 linhas e arquivosjob possui 234085 linhas. Estou executando o pyspark na minha máquina virtual. df = ...

0 a resposta

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

0 a resposta

Como comparar os cabeçalhos do df com outros cabeçalhos df usando o Fuzzy Matching no pyspark?

Criei 3 quadros de dados executando o seguinte código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| Comparei os cabeçalhos dos ...

1 a resposta

usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...

1 a resposta

pyspark: dependência de jar de navio com envio de faísca

Eu escrevi um script pyspark que lê dois arquivos json,coGroup eles e envia o resultado para um cluster de pesquisa elástica; tudo funciona (principalmente) conforme o esperado quando eu o executo localmente, baixei oelasticsearch-hadoop arquivo ...

1 a resposta

Especifique opções para a jvm ativada pelo pyspark

Como / onde as opções da jvm são usadas pelo script pyspark ao iniciar a jvm à qual ele se conecta especificado? Estou especificamente interessado em especificar opções de depuração da jvm, ...

1 a resposta

enviar script .py no Spark sem instalação do Hadoop

Eu tenho o seguinte script Python de contagem de palavras simples. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...