Хорошо использовать сканер внутри, чтобы получить список ссылок.

Question

Apr 11, 2011, 10:59 AM

Хорошо использовать сканер внутри, чтобы получить список ссылок.

л фрагмент сценария, чтобы сканировать веб-сайт, поставить его на свой сервер, и он работает. Единственная проблема заключается в том, что если я пытаюсь ползти и устанавливаю глубину выше 4, это не работает. Мне интересно, если это из-за нехватки ресурсов у серверов или самого кода.

<?php

error_reporting(E_ALL); 

function crawl_page($url, $depth)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }
    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $href = $element->getAttribute('href');
        if (0 !== strpos($href, 'http')) {
            $href = rtrim($url, '/') . '/' . ltrim($href, '/');
        }
        crawl_page($href, $depth - 1);
    }
    echo "URL:",$url,PHP_EOL;
    echo  "<br/>";
}
crawl_page("http://www.mangastream.com/", 2);
?>

РЕДАКТИРОВАТЬ:

Я включил сообщение об ошибке для сценария, и все, что я получаю, это

Ошибка 324 (net :: ERR_EMPTY_RESPONSE): неизвестная ошибка.

Хорошо использовать сканер внутри, чтобы получить список ссылок.

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Хорошо использовать сканер внутри, чтобы получить список ссылок.

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы