Скрипт для поиска <noindex> и списка ссылок
В одном проекте, который мне поручили, нужно было проверять обратную ссылку и смотреть, чтобы ее не взяли в <noindex>-тег. Чтобы потестировать различные варианты и ситуации на разных сайтах, я создал скрипт с интерфейсом. Этот скрипт показал проблемы моей функции, которые я постепенно устранил. Поделюсь сперва своим алгоритмом, который проверяет находится ли ваша ссылка в теге <noindex>, или она доступна к индексации яндексом.
- Скачиваю страницу, определяю тип кодировки, если отличная от UTF-8, конвертирую ее в эту кодировку.
- С помощью жадного регулярного выражения /<noindex>(\s*.*?\s*)<\/noindex>/i я получаю все вхождения.
- Каждое вхождение проверяю специальной функцией, в которой так же вызывается регулярное выражение, которое получает ссылку.
Получился интересный скрипт, который может оказаться кому-либо полезным. Во первых он показывает содержимое тега <noindex>, красным отмечает, если ваш домен взят в этот тег. А во вторых он показывает список всех ссылок, которые нашел на странице. Читать далее »





