чтобы он работал на 2.6-3.x, а не только на 2.x.
тоящее время я использую приведенный ниже код для импорта 6000 CSV-файлов (с заголовками) и экспортировать их в один CSV-файл (с одной строкой заголовка).
#import csv files from folder
path =r'data/US/market/merged_data'
allFiles = glob.glob(path + "/*.csv")
stockstats_data = pd.DataFrame()
list_ = []
for file_ in allFiles:
df = pd.read_csv(file_,index_col=None,)
list_.append(df)
stockstats_data = pd.concat(list_)
print(file_ + " has been imported.")
Этот код работает нормально, но он медленный. Процесс обработки может занять до 2 дней.
Мне дали однострочный скрипт для командной строки терминала, который делает то же самое (но без заголовков). Этот скрипт занимает 20 секунд.
for f in *.csv; do cat "`pwd`/$f" | tail -n +2 >> merged.csv; done
Кто-нибудь знает, как я могу ускорить первый скрипт Python? Чтобы сократить время, я думал о том, чтобы не импортировать его в DataFrame и просто объединить CSV, но я не могу понять это.
Благодарю.