Мар 16

Скрипт для поиска <noindex> и списка ссылок

Рубрики: Php Метки: ,  Количество просмотров: 2 035

В одном проекте, который мне поручили, нужно было проверять обратную ссылку и смотреть, чтобы ее не взяли в <noindex>-тег. Чтобы потестировать различные варианты и ситуации на разных сайтах, я создал скрипт с интерфейсом. Этот скрипт показал проблемы моей функции, которые я постепенно устранил. Поделюсь сперва своим алгоритмом, который проверяет находится ли ваша ссылка в теге <noindex>, или она доступна к индексации яндексом.

  1. Скачиваю страницу, определяю тип кодировки, если отличная от UTF-8, конвертирую ее в эту кодировку.
  2. С помощью жадного регулярного выражения /<noindex>(\s*.*?\s*)<\/noindex>/i я получаю все вхождения.
  3. Каждое вхождение проверяю специальной функцией, в которой так же вызывается регулярное выражение, которое получает ссылку.

Получился интересный скрипт, который может оказаться кому-либо полезным. Во первых он показывает содержимое тега <noindex>, красным отмечает, если ваш домен взят в этот тег. А во вторых он показывает список всех ссылок, которые нашел на странице.

Потестировать можно тут:

http://www.samborsky.com/sources/noindex/

Исходники

noindex

Загрузок: 492 | Размер: 3,0 KiB

Постовой

Поиск работы, трудоустройство в Казахстане.

Модный дизайн интерьера дома. Можно заказать мебель под любой вкус.

Нечем заняться? Тогда покер для начинающих будет хорошим вариантом провести время.

Другие статьи автора

Комментарии

  1. Цитировать Алексей Качаев

    Удобный скриптик. Один только совет – предупреждение о вхождении логично было бы вынести на верх. А то не всегда интересно пролистывать сотню-другую ссылок вниз в поисках красного предупреждения.

  2. Цитировать AngelOfFate

    ух ты полезная вещь, а кодом не поделишься, мне в образовательных целях =)

  3. Цитировать Samborsky

    AngelOfFate, код же выложил, скачай исходник

  4. Цитировать AngelOfFate

    Samborsky, а черт, слона то я и не заметил )))

  5. Цитировать azbuka

    Жека, при выведении результатов, справа каракули (видимо это тексты ссылок). Пополняешь свою коллекцию :)

  6. Цитировать Сергей

    Добрый день, Евгений! а можете сделать, чтобы показывало все ссылки с определённого урла?
    для пример, ваша страница _http://www.samborsky.com/javascript/jquery/254/
    загружаем её в скрипт, жмём на кнопочку, и в результате выдаются все внешние ссылки с этой страницы:
    «форуме MaxSite CMS»
    «Юрий Белотицкий» и так далее. то есть анкор ссылки

  7. Цитировать Samborsky

    Жека, при выведении результатов, справа каракули (видимо это тексты ссылок). Пополняешь свою коллекцию :)

    Не думаю что этот скрипт можно добавлять в коллекцию, он очень узконаправленый. Основная цель его создания – оттестировать функцию проверки для заказчика.

    Сергей, так вроде бы скрипт который на этой странице представлен и так выберает все ссылки с сайта и их анкоры. Или я не понял вопрос…

  8. Цитировать Сергей

    вы меня чуть- чуть не поняли)
    можно ли сделать без поиска тега , а просто выводить все внешние ссылки с требуемой страницы? чтобы они были активные – то есть на анкор можно было бы нажать и перейти))
    какой-то определённный домен искать не нужно, просто.
    для примера, берём чисто произвольно страницу, продающую ссылку в сапе – _http://domxbani.ru/statyi/6.htm на ней сейчас три внешних ссылки, две – покупные, и одна, счётчик лайвинтернет.
    можете ли сделать так, что при добавлении в форму этого урла, и нажатия кнопочки выводились бы две эти внешние ссылки?
    надеюсь, теперь я разъяснился корректно))

  9. Цитировать Samborsky

    Сергей, пока нет времени на доработку этого скрипта.

  10. Цитировать pix8700

    Очень надеюсь что вы выделите немного времяни для доработки скрипта.
    Очень нужная штука)

  11. Цитировать Дмитрий

    Извините, но при загрузки архива noindex.rar сообщает, что архив поврежден. Не могли бы Вы проверить архив. Сам написал такой же скрипт для проверки обратных ссылок, интересно ваше решение :)

  12. Цитировать Allee

    Хороший скрипт. Как раз сейчас пишу нечто подобное.

  13. Цитировать Fincafe

    Я делал проще. Вырезаю все noindex и смотрю осталась ссылка или нет. Если ссылка осталась, значит мы не в noindex.

Добавить комментарий