Потоковые данные для панд DF

Question

Sep 15, 2015, 09:31 PM

Потоковые данные для панд DF

Я пытаюсь смоделировать использование панд для доступа к постоянно меняющемуся файлу.

У меня есть один файл, читающий CSV-файл, добавляющий в него строку и затем спящий в течение произвольного времени для имитации объемного ввода.

import pandas as pd
from time import sleep
import random

df2 = pd.DataFrame(data = [['test','trial']], index=None)

while True:
    df = pd.read_csv('data.csv', header=None)
    df.append(df2)
    df.to_csv('data.csv', index=False)
    sleep(random.uniform(0.025,0.3))

Второй файл проверяет изменение данных, выводя форму информационного кадра:

import pandas as pd

while True:
    df = pd.read_csv('data.csv', header=None, names=['Name','DATE'])
    print(df.shape)

Проблема в том, что пока я получаю правильную форму DF, есть определенные моменты, когда он выводит(0x2).

т.е .:

...
(10x2)
(10x2)
...
(10x2)
(0x2)
(11x2)
(11x2)
...

Это происходит внемного но не междукаждый изменение формы (добавление файла в фрейм данных).

Знание этого происходит, когда первый скрипт открывает файл для добавления данных, а второй скрипт не может получить к нему доступ, следовательно (0x2), произойдет ли потеря данных?

Я не могу получить прямой доступ к потоку, только выходной файл. Или есть другие возможные решения?

редактировать

Цель этого - загрузить только новые данные (у меня есть код, который это делает) и выполнить анализ «на лету». Часть анализа будет включать в себя производительность / сек, графики (аналогично графику потока) и несколько других численных расчетов.

Самая большая проблема заключается в том, что у меня есть доступ только к CSV-файлу, и мне нужно иметь возможность анализировать данные по мере их поступления без потерь или задержек.

Потоковые данные для панд DF

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Потоковые данные для панд DF

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы