Результаты поиска по запросу "apache-spark"
@rajNishKuMar Как правило - если что-то в формате простого текста, который не предоставляет схему, он не налагает никаких ограничений.
исал следующий код в Scala и Python, однако возвращаемый DataFrame, по-видимому, не применяет ненулевые поля в моей схеме, которую я применяю.
столбец, если вам не нужно удалять лишние столбцы.
вопрос связан сПредыдущая, У меня есть два кадра данных в Scala:
Спасибо за быстрый и хороший ответ!
ли в Spark возможность повторно использовать кэшированный СДР в другом приложении (или при другом запуске того же приложения)?
будет суммировать всю последовательность {0, 1} перед текущей строкой. Это правда?
я есть некоторые данные, которые я хочу сгруппировать по определенному столбцу, а затем объединить ряд полей на основе скользящего временного окна из группы....
Импорт sqlContext.implicits._ решил проблему. Благодарю.
я есть два кадра данных в Scala:
Макет, предложенный Mariusz, должен быть гораздо более эффективным, поскольку это более плоское дерево каталогов - переключение на него должно оказывать большее влияние на производительность хранилищ объектов, чем на реальные файловые системы.
ел бы прочитать несколько файлов паркета в кадре данных из S3. В настоящее время я использую следующий метод для этого:
и повторно запустить
в Spark. Скачано все нормально, но когда я запускаю pyspark, я получаю следующие ошибки:
Вы можете создать карту, чтобы иметь искривленные типы данных, соответствующие столбцу Type Oracle string в схеме json.
я есть таблица с около 1500 столбцов в SQL Server. Мне нужно прочитать данные из этой таблицы, а затем преобразовать их в надлежащий формат типа данных и зат...