Resultados da pesquisa a pedido "apache-spark"
Retornar RDD dos maiores valores de N de outro RDD no SPARK
Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...
SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe
Estou usando o Spark ML para otimizar um Naive Ba, sim um classificador de várias classes. Tenho cerca de 300 categorias e estou classificando documentos de texto. O conjunto de treinamento é equilibrado o suficiente e existem cerca de ...
Esquema ambíguo no Spark Scala
Esquema: |-- c0: string (nullable = true) |-- c1: struct (nullable = true) | |-- c2: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- orangeID: string (nullable = true) | | | |-- orangeId: string (nullable = ...
O pyspark divide uma coluna em várias colunas sem pandas
minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...
Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela
Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...
SparkR mostra caracteres chineses errados
Eu sou novo no SparkR, hoje em dia encontrei um problema que, após converter um arquivo que continha caracteres chineses em SparkR, ele não era mais exibido corretamente. Como isso: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 北京 2 ...
Spark SQL - carregando arquivos csv / psv com alguns registros malformados
Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...
Paralelações de aninhamento no Spark? Qual é a abordagem correta?
PARALELIZAÇÕES NESTADAS? Digamos que estou tentando fazer o equivalente a "aninhado para loops" no Spark. Algo como em uma linguagem regular, digamos que eu tenha uma rotina no loop interno que calcule Pi da maneirao exemplo do Pi Average Spark ...
StandardScaler no Spark não está funcionando conforme o esperado
Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...
O arquivo .py de importação do Pyspark não está funcionando
Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...