Importación de archivos csv y xlsx a un marco de datos pandas: problema de velocidad
La lectura de datos (solo 20000 números) de un archivo xlsx lleva una eternidad:
import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)
Tarda unos 9 segundos.
Si guardo el mismo archivo en formato csv toma ~ 25ms:
import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)
¿Es este un problema de openpyxl o me estoy perdiendo algo? ¿Hay alguna alternativa?