чтение CSV в Юлии медленнее по сравнению с Python

чтение больших текстовых / CSV-файлов в Julia занимает больше времени по сравнению с Python. Вот время, чтобы прочитать файл, размер которого составляет 486,6 МБ и имеет 153895 строк и 644 столбца.

пример Python 3.3

import pandas as pd
import time
start=time.time()
myData=pd.read_csv("C:\\myFile.txt",sep="|",header=None,low_memory=False)
print(time.time()-start)

Output: 19.90

R 3.0.2 пример

system.time(myData<-read.delim("C:/myFile.txt",sep="|",header=F,
   stringsAsFactors=F,na.strings=""))

Output:
User    System  Elapsed
181.13  1.07    182.32

Jul, ia 0.2.0 (Julia Studio 0.4.4) пример # 1

using DataFrames
timing = @time myData = readtable("C:/myFile.txt",separator='|',header=false)

Output:
elapsed time: 80.35 seconds (10319624244 bytes allocated)

Юлия 0.2.0 (Julia Studio 0.4.4) пример № 2

timing = @time myData = readdlm("C:/myFile.txt",'|',header=false)

Output:
elapsed time: 65.96 seconds (9087413564 bytes allocated)

Джулия быстрее, чем R, но довольно медленная по сравнению с Python. Что я могу сделать по-другому, чтобы ускорить чтение большого текстового файла?

отдельная проблема - размер памяти в 18 раз больше размера файла на жестком диске в Julia, но только в 2,5 раза больше для python. в Matlab, который, как я обнаружил, наиболее эффективно использует память для больших файлов, это в 2 раза больше размера файла на жестком диске. Есть какая-то конкретная причина большого размера файла в памяти у Юлии?

Ответы на вопрос(5)

Ваш ответ на вопрос