Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Retornar RDD dos maiores valores de N de outro RDD no SPARK

Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...

1 a resposta

SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe

Estou usando o Spark ML para otimizar um Naive Ba, sim um classificador de várias classes. Tenho cerca de 300 categorias e estou classificando documentos de texto. O conjunto de treinamento é equilibrado o suficiente e existem cerca de ...

1 a resposta

Esquema ambíguo no Spark Scala

Esquema: |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

2 a resposta

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...

1 a resposta

SparkR mostra caracteres chineses errados

Eu sou novo no SparkR, hoje em dia encontrei um problema que, após converter um arquivo que continha caracteres chineses em SparkR, ele não era mais exibido corretamente. Como isso: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 北京 2 ...

1 a resposta

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...

3 a resposta

Paralelações de aninhamento no Spark? Qual é a abordagem correta?

PARALELIZAÇÕES NESTADAS? Digamos que estou tentando fazer o equivalente a "aninhado para loops" no Spark. Algo como em uma linguagem regular, digamos que eu tenha uma rotina no loop interno que calcule Pi da maneirao exemplo do Pi Average Spark ...

1 a resposta

StandardScaler no Spark não está funcionando conforme o esperado

Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...

1 a resposta

O arquivo .py de importação do Pyspark não está funcionando

Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...