Скрипт для поиска <noindex> и списка ссылок
В одном проекте, который мне поручили, нужно было проверять обратную ссылку и смотреть, чтобы ее не взяли в <noindex>-тег. Чтобы потестировать различные варианты и ситуации на разных сайтах, я создал скрипт с интерфейсом. Этот скрипт показал проблемы моей функции, которые я постепенно устранил. Поделюсь сперва своим алгоритмом, который проверяет находится ли ваша ссылка в теге <noindex>, или она доступна к индексации яндексом.
- Скачиваю страницу, определяю тип кодировки, если отличная от UTF-8, конвертирую ее в эту кодировку.
- С помощью жадного регулярного выражения /<noindex>(\s*.*?\s*)<\/noindex>/i я получаю все вхождения.
- Каждое вхождение проверяю специальной функцией, в которой так же вызывается регулярное выражение, которое получает ссылку.
Получился интересный скрипт, который может оказаться кому-либо полезным. Во первых он показывает содержимое тега <noindex>, красным отмечает, если ваш домен взят в этот тег. А во вторых он показывает список всех ссылок, которые нашел на странице.
Потестировать можно тут:
http://www.samborsky.com/sources/noindex/
Исходники
noindex
Постовой
Поиск работы, трудоустройство в Казахстане.
Модный дизайн интерьера дома. Можно заказать мебель под любой вкус.
Нечем заняться? Тогда покер для начинающих будет хорошим вариантом провести время.
- Форекс – российский электронный бизнес
- Новые фичи в Адлабс.индикаторе
- Встраиваемые варочная поверхность beko Siemens HB 33AB550 R Zanussi ZOB 482 X
- Мой движок
- Текст с окантовкой
- Свадебные традиции — неоригинально, зато как трогательно…
- Поисковая оптимизация сайта: в чем разница между профессиональным и любительским подходом?


Удобный скриптик. Один только совет – предупреждение о вхождении логично было бы вынести на верх. А то не всегда интересно пролистывать сотню-другую ссылок вниз в поисках красного предупреждения.
ух ты полезная вещь, а кодом не поделишься, мне в образовательных целях =)
AngelOfFate, код же выложил, скачай исходник
Samborsky, а черт, слона то я и не заметил )))
Жека, при выведении результатов, справа каракули (видимо это тексты ссылок). Пополняешь свою коллекцию
Добрый день, Евгений! а можете сделать, чтобы показывало все ссылки с определённого урла?
для пример, ваша страница _http://www.samborsky.com/javascript/jquery/254/
загружаем её в скрипт, жмём на кнопочку, и в результате выдаются все внешние ссылки с этой страницы:
«форуме MaxSite CMS»
«Юрий Белотицкий» и так далее. то есть анкор ссылки
Не думаю что этот скрипт можно добавлять в коллекцию, он очень узконаправленый. Основная цель его создания – оттестировать функцию проверки для заказчика.
Сергей, так вроде бы скрипт который на этой странице представлен и так выберает все ссылки с сайта и их анкоры. Или я не понял вопрос…
вы меня чуть- чуть не поняли)
можно ли сделать без поиска тега , а просто выводить все внешние ссылки с требуемой страницы? чтобы они были активные – то есть на анкор можно было бы нажать и перейти))
какой-то определённный домен искать не нужно, просто.
для примера, берём чисто произвольно страницу, продающую ссылку в сапе – _http://domxbani.ru/statyi/6.htm на ней сейчас три внешних ссылки, две – покупные, и одна, счётчик лайвинтернет.
можете ли сделать так, что при добавлении в форму этого урла, и нажатия кнопочки выводились бы две эти внешние ссылки?
надеюсь, теперь я разъяснился корректно))
Сергей, пока нет времени на доработку этого скрипта.
Очень надеюсь что вы выделите немного времяни для доработки скрипта.
Очень нужная штука)
Извините, но при загрузки архива noindex.rar сообщает, что архив поврежден. Не могли бы Вы проверить архив. Сам написал такой же скрипт для проверки обратных ссылок, интересно ваше решение
Хороший скрипт. Как раз сейчас пишу нечто подобное.
Я делал проще. Вырезаю все noindex и смотрю осталась ссылка или нет. Если ссылка осталась, значит мы не в noindex.