Самая длинная повторяющаяся (k раз) подстрока

Question

Nov 09, 2012, 04:47 PM

python algorithm longest-substring bioinformatics

Самая длинная повторяющаяся (k раз) подстрока

Я знаю, что это несколько запутанная тема, но я достиг предела помощи, которую я могу получить от того, на что уже дан ответ.

Это дляРозалинд проект проблемы LREP, Я пытаюсь найти самую длинную k-peated подстроку в строке, и я былпри условии суффикс дерева, что приятно. Я знаю, что мне нужно аннотировать таблицу суффиксов числом выходов из каждого узла, а затем находить узлы с>=k потомки, и, наконец, найти самые глубокие из этих узлов. В теории я настроен.

Я получил большую помощь от следующих ресурсов (к сожалению, я могу только опубликовать 2):

Найти самую длинную повторяющуюся последовательность в строке Поиск в глубину (Python)

Я могу получить пути от корня до каждого листа, но я не могу понять, как предварительно обработать дерево таким образом, чтобы я мог получить количество потомков от каждого узла. У меня есть отдельный алгоритм, который работает на небольших последовательностях, но он имеет экспоненциальную сложность, поэтому для больших вещей это занимает слишком много времени. Я знаю, что с DFS я должен быть в состоянии выполнить всю задачу в линейной сложности. Чтобы этот алгоритм работал, мне нужно иметь возможность получить самый длинный k-торф из строки длиной ~ 40000 менее чем за 5 минут.

Вот некоторые примеры данных (первая строка:sequence, вторая линия:kформат таблицы суффиксов:parent child location length):

Выход из этого должен бытьCATAC.

Со следующим кодом (изменено изLiterateProgramsЯ был в состоянии получить пути, но для более длинных последовательностей все еще требуется много времени, чтобы разобрать путь для каждого узла.

#authors listed at
#http://en.literateprograms.org/Depth-first_search_(Python)?action=history&offset=20081013235803
class Vertex:
    def __init__(self, data):
        self.data = data
        self.successors = []

def depthFirstSearch(start, isGoal, result):
    if start in result:
        return False

    result.append(start)

    if isGoal(start):
        return True
    for v in start.successors:
        if depthFirstSearch(v, isGoal, result):
            return True

    # No path was found
    result.pop()
    return False

def lrep(seq,reps,tree):
    n = 2 * len(seq) - 1
    v = [Vertex(i) for i in xrange(n)]
    edges = [(int(x[0]),int(x[1])) for x in tree]
    for a, b in edges:
        v[a].successors.append(v[b])

    paths = {}
    for x in v:
        result = []
        paths[x.data] = []
        if depthFirstSearch(v[1], (lambda v: v.data == x.data), result):
            path = [u.data for u in result]
            paths[x.data] = path

То, что я хотел бы сделать, это предварительно обработать дерево, чтобы найти узлы, которые удовлетворяютdescendants >= k Требование до нахождения глубины. Я даже не дошел до того, как собираюсь вычислять глубину. Хотя я предполагаю, что у меня будет некоторый словарь для отслеживания глубины каждого узла в пути, а затем суммы.

Итак, мой первый самый важный вопрос:"Как мне предварительно обработать дерево с потомками?"

Мой второй менее важный вопрос:"После этого, как я могу быстро вычислить глубину?"

Постскриптум Я должен заявить, что этоне домашнее задание или что-то в этом роде. Я просто биохимик, пытающийся расширить свой кругозор с помощью некоторых вычислительных задач.

Самая длинная повторяющаяся (k раз) подстрока

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Самая длинная повторяющаяся (k раз) подстрока

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы