читать несколько файлов, используя многопроцессорность

Question

Jan 15, 2010, 01:38 AM

читать несколько файлов, используя многопроцессорность

Мне нужно прочитать несколько очень больших текстовых файлов (более 100 Мб), обработать все строки с помощью регулярных выражений и сохранить данные в структуре. Моя структура наследуется от defaultdict, у нее есть метод read (self), который читает файл self.file_name.

Посмотрите на этот очень простой (но не реальный) пример, я не использую регулярное выражение, но разбиваю строки:


import multiprocessing
from collections import defaultdict

def SingleContainer():
    return list()

class Container(defaultdict):
    """
    this class store odd line in self["odd"] and even line in self["even"].
    It is stupid, but it's only an example. In the real case the class
    has additional methods that do computation on readen data.
    """
    def __init__(self,file_name):
        if type(file_name) != str:
            raise AttributeError, "%s is not a string" % file_name
        defaultdict.__init__(self,SingleContainer)
        self.file_name = file_name
        self.readen_lines = 0
    def read(self):
        f = open(self.file_name)
        print "start reading file %s" % self.file_name
        for line in f:
            self.readen_lines += 1
            values = line.split()
            key = {0: "even", 1: "odd"}[self.readen_lines %2]
            self[key].append(values)
        print "readen %d lines from file %s" % (self.readen_lines, self.file_name)

def do(file_name):
    container = Container(file_name)
    container.read()
    return container.items()

if __name__ == "__main__":
    file_names = ["r1_200909.log", "r1_200910.log"]
    pool = multiprocessing.Pool(len(file_names))
    result = pool.map(do,file_names)
    pool.close()
    pool.join()
    print "Finish"

В конце мне нужно объединить все результаты в один контейнер. Важно, что порядок линий сохраняется. Мой подход слишком медленный при возврате значений. Лучшее решение? Я использую Python 2.6 в Linux

читать несколько файлов, используя многопроцессорность

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

читать несколько файлов, используя многопроцессорность

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы