Resultados da pesquisa a pedido "apache-spark"

Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...

machine-learning classification naivebayes apache-spark-ml

1 a resposta

SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe

Estou usando o Spark ML para otimizar um Naive Ba, sim um classificador de várias classes. Tenho cerca de 300 categorias e estou classificando documentos de texto. O conjunto de treinamento é equilibrado o suficiente e existem cerca de ...

scala

1 a resposta

Esquema ambíguo no Spark Scala

python apache-spark-sql pyspark

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

apache-spark-sql

2 a resposta

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

Acho que estou perdendo alguma coisa, mas não consigo entender o que. Desejo carregar dados usando SQLContext e JDBC usando uma instrução sql específica como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id ...

unicode sparkr r

1 a resposta

SparkR mostra caracteres chineses errados

Eu sou novo no SparkR, hoje em dia encontrei um problema que, após converter um arquivo que continha caracteres chineses em SparkR, ele não era mais exibido corretamente. Como isso: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 北京 2 ...

csv apache-spark-sql parquet

1 a resposta

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...

parallel-processing nested java

3 a resposta

Paralelações de aninhamento no Spark? Qual é a abordagem correta?

PARALELIZAÇÕES NESTADAS? Digamos que estou tentando fazer o equivalente a "aninhado para loops" no Spark. Algo como em uma linguagem regular, digamos que eu tenha uma rotina no loop interno que calcule Pi da maneirao exemplo do Pi Average Spark ...

apache-spark-ml pyspark scikit-learn

1 a resposta

StandardScaler no Spark não está funcionando conforme o esperado

Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...

python pyspark python-import

1 a resposta

O arquivo .py de importação do Pyspark não está funcionando

Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...

Página 140 do 167

138 139140141 142

Resultados da pesquisa a pedido "apache-spark"

Retornar RDD dos maiores valores de N de outro RDD no SPARK

SPARK ML, classificador Naive Bayes: previsão de alta probabilidade para uma classe

Esquema ambíguo no Spark Scala

Tags populares

O pyspark divide uma coluna em várias colunas sem pandas

Spark SQL - carrega dados com JDBC usando a instrução SQL, não o nome da tabela

SparkR mostra caracteres chineses errados

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Paralelações de aninhamento no Spark? Qual é a abordagem correta?

StandardScaler no Spark não está funcionando conforme o esperado

O arquivo .py de importação do Pyspark não está funcionando

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares