Результаты поиска по запросу "apache-spark"

2 ответа

Здесь в тексте данных - строка, разделенная вашим разделителем

я есть датафрейм, который имеет несколько многострочных наблюдений: +--------------------+----------------+ | col1| col2| +--------------------+----------------+ |something1 |somethingelse1 | |something2 |somethingelse2 | |something3 ...

1 ответ

Чтобы добавить в качестве нового столбца:

ичок в программировании Scala, и это мой вопрос: как посчитать количество строк для каждой строки? Мой Dataframe состоит из одного столбца типа Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

1 ответ

Лично я бы просто скачал файл и поместил его в распределенное хранилище.

азвивающая среда: IntellijспециалистScala2.10.6win7 x64зависимости: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 --> <dependency> ...

ТОП публикаций

1 ответ

Вы должны создать свою собственную функцию для анализа этих данных. Грубая идея:

ли способ преобразовать значение метки времени с нано секундами в метку времени в искре. Я получаю данные из CSV-файла, а значение timstamp имеет формат12-12-2015 14:09:36.992415+01:00, Это код, который я пробовал. val date_raw_data = List((1, ...

3 ответа

Ответы у вас с Алексом самые лучшие - им не нужно группировать каждый элемент разбиения на одном узле

я есть проблема с Spark Scala, которую я хочу посчитать среднее из данных Rdd, я создаю новый RDD, как это, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Я хочу считать их ...

2 ответа

Спасибо за concat_ws !!

я есть входные данные, как показано ниже, с идентификатором, приложением и клиентом Входной фрейм данных +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 ...

1 ответ

спасибо @ user6910411

я есть дата столбец в моем SparkDataDrame который содержит несколько форматов строк. Я хотел бы привести их к DateTime. Два формата в моей колонке: mm/dd/yyyy; а такжеyyyy-mm-ddМое решение до сих пор состоит в том, чтобы использовать UDF для ...

2 ответа

stackoverflow.com/questions/48670551/...

раняю свой вывод данных в формате spark в виде csv-файла в scala с разделами. Вот как я это делаю вдирижабль. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, ...

1 ответ

в моем случае может оказаться достаточной идея разделения фрейма данных на маленькие / большие записи.

я есть датафрейм следующей формы: import scala.util.Random val localData = (1 to 100).map(i => (i,Seq.fill(Math.abs(Random.nextGaussian()*100).toInt)(Random.nextDouble))) val df = sc.parallelize(localData).toDF("id","data") |-- id: integer ...

2 ответа

 Искровой проект. Ответ довольно прост (и очевиден, если вы понимаете, что и как Spark выполняет обработку): «Знайте свои данные», чтобы вы могли посчитать, сколько точно.

аю из очереди Кафки, используя потоковую структуру Spark. После прочтения из Кафки я применяю фильтр к данным. Этот отфильтрованный фрейм данных я говорю в файле паркета., Это генерирует много пустых файлов паркета. Есть ли способ, которым я могу ...