Resultados da pesquisa a pedido "apache-spark-sql"
O que significam as colunas 'rawPrediction' e 'probabilidade' do DataFrame no Spark MLlib '
Depois de treinar um LogisticRegressionModel, eu transformei os dados de teste DF com eles e obtive a previsão DF. E quando chamo prediction.show (), os nomes das colunas de saída são:[label | features | rawPrediction | probability | prediction]. ...
Spark - SELECIONE ONDE ou filtrando?
Qual é a diferença entre selecionar com uma cláusula where e filtrar no Spark? Existem casos de uso em que um é mais apropriado que o outro? Quando eu uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))e quando ...
O pipeline do Spark ML causa java.lang.Exception: falha ao compilar… Código… cresce além de 64 KB
Usando o Spark 2.0, estou tentando executar um simples VectorAssembler em um pipeline pyspark ML, da seguinte maneira: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
Spark equivalente a IF Then ELSE
Eu já vi essa pergunta aqui anteriormente e tirei lições disso. No entanto, não sei por que estou recebendo um erro quando acho que deve funcionar. Eu quero criar uma nova coluna no Spark existenteDataFrame por algumas regras. Aqui está o que eu ...
Buscando valores distintos em uma coluna usando o Spark DataFrame
Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...
Converter string pyspark em formato de data
Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...
Compreendendo a representação da coluna vetorial no Spark SQL
Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
Lendo vários arquivos do S3 no Spark por período de data
DescriçãoEu tenho um aplicativo que envia dados para o AWS Kinesis Firehose e isso grava os dados no meu bucket S3. O Firehose usa o formato "aaaa / MM / dd / HH" para gravar os arquivos. Como neste caminho S3 de ...
Como dividir Vector em colunas - usando PySpark
Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...
Alteração de propriedade anulável da coluna Spark Dataframe
Desejo alterar a propriedade anulável de uma coluna específica em um Spark Dataframe. Se eu imprimir o esquema do quadro de dados atualmente, ele será exibido abaixo.col1: string (nullable = false) col2: string (nullable = true) col3: string ...