Спасибо вам также за ответ, а также за тест! Я также провел некоторый эксперимент, см. Мой ответ на него. Похоже, что двоичные данные побеждают :)

я есть несколько R-скриптов, где я должен как можно быстрее загрузить несколько фреймов данных в R. Это очень важно, так как чтение данных - самая медленная часть процедуры. Например: построение графиков с разных данных. Я получаю данные в сохраненном (SPSS) формате, но я могу преобразовать их в любой формат, как предложено. К сожалению, объединение данных не является вариантом.

Какой может быть самый быстрый способ загрузки данных? Я думал о следующем:

преобразовать изSAV в двоичный объект R (RDATA) в первый раз, а позже всегда загружайте это, так как это кажется намного быстрее, чемread.spss.преобразовать изSAV вCSV файлы и чтение данных из тех с заданными параметрами, обсуждаемыми вэто тема,или стоит установить бэкэнд MySQL на localhost и загружать данные с него? Может ли это быть быстрее? Если да, могу ли я также сохранить любой пользовательскийattr значения переменных (например,variable.labels из спсс импортированных файлов)? Или это должно быть сделано в отдельной таблице?

Любые другие мысли приветствуются. Спасибо за каждое предложение заранее!

Я провел небольшой экспериментниже основываясь на ответах, которые вы дали, а также добавил (24/01/2011) довольно «хакерское», но очень быстрое решение, загружающее только несколько переменных / столбцов из специального двоичного файла. Последний, кажется, самый быстрый метод, который я могу себе представить, поэтому я составил (05/03/2011: версия 0.3) небольшой пакет с именемэкономит иметь дело с этой функцией. Пакет находится в стадии "тяжелой" разработки, любая рекомендация приветствуется!

Я скоро опубликую виньетку с точными результатами теста с помощьюmicrobenchmark пакет.

Ответы на вопрос(4)

Ваш ответ на вопрос