Resultados da pesquisa a pedido "bigdata"

2 a resposta

Qual é a diferença básica entre jobconf e job?

1 a resposta

jq --streamstream filter em vários valores da mesma chave

Estou processando um JSON muito grande em que preciso filtrar os objetos JSON internos usando o valor de uma chave. Meu JSON tem a seguinte ...

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

4 a resposta

Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?

Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...

1 a resposta

por que dois vetores não é similaridade, mas o resultado é 1?

Estou usando a fórmula Cosine Similarity para calcular a similaridade entre dois vetores. Eu tentei dois vetores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...

4 a resposta

Usando clojure-csv.core para analisar um arquivo csv enorme

2 a resposta

Como posso salvar um RDD no HDFS e depois lê-lo novamente?

Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?

2 a resposta

Como criar um grande dataframe de pandas a partir de uma consulta sql sem ficar sem memória?

Estou tendo problemas para consultar uma tabela de> 5 milhões de registros do meu banco de dados do MS SQL Server. Eu quero ser capaz de selecionar todos ...

1 a resposta

Adivinhador de tipo de dados Spark UDAF

Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...

2 a resposta

Subtrair todos os pares de valores de duas matrizes

Eu tenho dois vetoresv1 ev2. Eu gostaria de subtrair cada valor dev2 de cada valor dev1 e armazene os resultados em outro vetor. Também gostaria de trabalhar com vetores muito grandes (por exemplo, tamanho 1e6), então acho que devo usar numpy ...