Результаты поиска по запросу "apache-spark"

и я не вижу никаких записей внутри писателя. Но единственная аномалия в том, что текущая дата - 2018/05/24, но запись, которую я обрабатываю (ts2), имеет старые даты. Будет ли агрегация / подсчет работать в этом сценарии?

аюсь агрегировать количество записей каждые 10 секунд, используя структурированную потоковую передачу для следующих входящих данных Кафки { "ts2" : "2018/05/01 00:02:50.041", "serviceGroupId" : "123", "userId" : "avv-0", "stream" : "", ...

dataframe scala

1 ответ

или же

я есть датафрейм, который содержит записи, идентифицированные ключом. Но может быть случай, когда ключ может стать повторяющимся. Моя цель - объединить все записи на основе этого ключа следующим образом Предположим, что мой входной фрейм данных ...

apache-spark-dataset hive

2 ответа

посмотри здесь

ы можем перезаписать многораздельный набор данных, но только те разделы, которые мы собираемся изменить? Например, пересчет ежедневной работы за последнюю неделю и перезапись только данных за последнюю неделю. Поведение Spark по умолчанию ...

ТОП публикаций

Test Test Test Test Test Test

21 Startup Ideas to Start Profitable Business in 2020

How To Build E-Learning Platform From Scratch: The Complex Guide From Idea to MVP

How to Raise Your Own SaaS Product off the Ground and Avoid Common Pitfalls

scala dataframe apache-spark-sql

1 ответ

Выход:

от вопрос уже есть ответ здесь: Как отобразить вложенный Dataframe в Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 ответУ меня есть датафрейм в искре, который похож на: column_A | column_B --------- -------- 1 1,12,21 ...

random scala performance

2 ответа

Вы можете сначала сэмплировать разделы, а затем сэмплировать их. Таким образом, вам не нужно полное сканирование таблицы, но она работает только в том случае, если само разбиение является случайным. AFAIK, вам нужно использовать RDD API для этого. Это может выглядеть так (вставьте числа, соответствующие желаемому количеству образцов):

аюсь выполнить простую случайную выборку со Scala из существующей таблицы, содержащей около 100e6 записей. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...

spark-streaming elasticsearch scala

1 ответ

список зависимостей

аюсь запустить простую запись данных в пример ElasticSearch. Тем не менее, я продолжаю получать эту ошибку: EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not ...

spark-dataframe scala

2 ответа

Вы также можете попробовать это. Это может обрабатывать как пустое / пустое / нулевое

могу заменить пустые значения в столбцеField1 DataFramedf? Field1 Field2 AA 12 BBЭта команда не дает ожидаемого результата: df.na.fill("Field1",Seq("Anonymous"))Ожидаемый результат: Field1 Field2 Anonymous AA 12 BB

mesos

2 ответа

Контент представлен в виде json, а framework_id позволяет найти связанных исполнителей и их потребление памяти, использование процессора и т. Д., Приведенные в таблице.

и Mesos Web UI я вижу использование памяти моих исполнителей Spark в виде таблицы. Agents -> Framework -> Executors Существует таблица со списком всех исполнителей для моего драйвера Spark, и их использование памяти указано в столбцеMem (Used / ...

scala

1 ответ

но используйте его на свой страх и риск, и только если вы полностью понимаете гарантии вышестоящего плана выполнения.

могу выполнить сведение приведенного ниже фрейма данных, т. Е. Иметь только одну запись для общего ключа и его значений в виде кортежа и поддерживать порядок значений. Я могу сделать свертку, но не могу поддерживать порядок ...

java rabbitmq spark-structured-streaming

1 ответ

Также в отношении «Обратите внимание, что фабрика считывателей будет сериализована и отправлена исполнителям, затем будет создан считыватель данных для исполнителей и будет выполняться фактическое чтение». Реализация сокета соблюдает это - просто статическая часть буфера данных сериализуется как часть фабрики и читается.

аюсь написать собственный приемник дляStructured Streaming что будет потреблять сообщения отRabbitMQ. Spark недавно выпущенный [https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html] DataSource V2 API, который кажется очень ...

Страница 156 из 167

154 155156157 158

Вы очень активны! Это здорово!

Результаты поиска по запросу "apache-spark"

Популярные теги

ТОП публикаций