Записи с тегом "dmoz"

Апр 21

Как получить полный список сайтов из DMOZ ?

Рубрики: Новости Метки: ,

Никогда не задавались подобным вопросом? Я получал полный список сайтов из каталога DMOZ не один раз, и т.к. мне сегодня он снова понадобился, я решил создать пост на эту тему.

По адресу rdf.dmoz.org всегда лежал дамп базы DMOZ в XML формате. Там все структурировано, и теоретически можно выдрать ссылки только скажем тематики «строительство» или «блоги», но мне нужны все. Для этого понадобится файл content.rdf.u8.gz (около 350 МБ). Скачиваем его, распаковываем и следуем дальнейшей инструкции.

dmoz_dump

А дальнейшая инструкция такая: берем вот этот скрипт

<?php

	// Не прерывать скрипт в течение суток
	set_time_limit(3600*24);

	// Открываем DMOZ-овский файл на чтение
	if( $f = fopen('content.rdf.u8','r') ){

		// Создаем файл, куда будем записывать сайты
		if( $w = fopen('sites.txt','w') ){

		    while( !feof($f) ) {

		        $line = fgets($f,4096);

				if( preg_match('/<link\s*r:resource="(.+?)"\s*\/>/',$line,$out) ){

					fwrite($w,$out[1] . "\n");
				}
		    }

			fclose($w);
		}
		fclose($f);
	}    

?>

Читать далее »

Фев 26

Скрипт проверки наличия сайтов в DMOZ каталоге

Рубрики: Php Метки: , , ,

Написал этот скрипт уже давненько, но все никак не выложу. Точней я давно написал функцию проверки сайта в DMOZ каталоге, а обертку только сейчас сделал. Функция была частью проекта, который развалился так и не начавшись.

Что за проект? Кому интересно расскажу: заказали мне полный аналог i.pr-cy.ru, т.е. той панельки, которая многим не дает покоя (стабильно мне предлагают ее написать, но больше 300$ никто не дает), мне этот проект вполне по зубам (даже лучше могу сделать), все функции в отдельности написаны, осталось только собрать все в одном проекте, сделать аккаунты пользователей, поставить лимиты на проверки и т.д. Но неожиданно заказчик решил отказаться от моих услуг. В общем хозяин-барин, жаль что предоплату не взял сразу. Кстати кому нужна такая панелька, радующая множество веб-мастеров, пишите, с удовольствием доделаю тот проект, который оцениваю в 300-500$ (в зависимости от подробностей).

Как работает скрипт?

Он берет домен, подставляет его в качестве параметра для поиска в DMOZ, к примеру:

http://search.dmoz.org/cgi-bin/search?search=samborsky.com

После чего парсит результаты поиска, и возвращает количество совпадений. Для моего блога результат 1, для yandex.ru – 53, для сайта не в dmoz.org – 0. По моему так повеселей, чем показывают все чекеры в той же сапе или в j2j (Да/Нет).

Важное замечание

Как всегда сайты с www. и без него – это разные вещи. Потому если вашего сайта нет в DMOZ, в то время, как вы уверены что он там есть – проверьте, правильно ли задали имя домена. Читать далее »

Окт 29

Взяли в DMOZ

Рубрики: Мысли Метки: ,

Утром, разгребая очередную сотню писем, обратил внимание на одно письмо. В общем мой блог приняли в DMOZ спустя месяц после подачи заявки.

С тех пор было 3 захода с домена editors.dmoz.org, все с разных IP адресов, судя по количеству просмотренных страниц перерыли блог с ног до головы.

Если честно не думал что так быстро возьмут, потому как блогу 2 месяца всего. В общем мелочь, а приятно.  Читать далее »