Приветствую вас, уважаемые форумчане! Сегодня решил поделиться кейсом о поэтапном создании сайта, который будет парсить авторский контент с других площадок (речь не идёт о воровстве, глумиться буду над текстами песен "Только для ознакомления"). Идея наверняка стара как мир, но работает до сих пор. Все результаты основаны на жизненных этапах моего сайта mus-text.ru.
Этап 1 - Идея Как-то днём я искал текст песни Руки Вверх (не смейтесь, люблю эту группу). После блуждания по ГС сайтам, которые сидят в ТОП3 выдачи по запросам Текст песни Руки Вверх ..., я пришёл к выводу, что контент везде одинаковый, но почему-то кто-то вверху, а кто-то снизу. Запросов со словами "Текст песни..." в месяц около миллиона. А почему бы не попробовать и мне создать сайт про текста песен? Туда же прилеплю парочку фишек, типа плеера под каждую песню (на тот момент я понятия не имел, как можно для нескольких тысяч песен собрать кучу мп3 записей + как их хранить на сервере? Огромный вопрос), сделаю более-менее нормальную оптимизацию сайта под seo. Решил побороть поисковик огромным наплывом низкочастотных запросов, ведь материала должно было быть много. А монетизировать буду с помощью рекламки от Adsence (я и не знал ещё, сколько геморроя будет с ней).
Этап 2 - Команда и инструменты В напарники я взял очень умного паренька, с которым вместе учился в универе. Мы оба были php-шники, из-за этого долго не думали и перекинулись именно на этот язык программирования. Тем более PHP очень хорошо работает со строками, имеет встроенный CURL, дабы парсить сайты. Но я как-то не захотел юзать именно CURl, а нашёл стороннюю библиотеку PHP Simple HTML DOM Parser. Не стану описывать все способы работы с этой библиотекой именно здесь, потому что это займёт много времени, да и к тому же я уже описывал принципы работы с ней в своём блоге. Вот сама статья http://seo-love.ru/programmirovanie/...v-s-nulya.html. Суть вся заключается в работе с DOM-моделью странички, которую вы скачаете. Куча функций поможет пробежаться по отдельным блокам, выдрать любую информацию, что вам потребуется. Библиотечка очень проста в использовании, так что советую всем начинающим программистам парсеров.
Этап 3 - Анализ конкурентов, наполнение базы, дизайн сайта Дизайн сайта рисовали сами. Сразу скажу, что это совсем не идеал и в дальнейшем можно было бы обновить его. Но пока покатит и так Главное - большое количество текстов и хорошая перелинковка. Вместе с напарником мы нашли несколько тематических сайтов, которые могли бы спарсить. Для начала решили попрактиковаться на простом сайтике реп-песен. Вроде бы простенькая структура, всё должно быть хорошо. К тому же почти на каждой площадке такого типа есть что-то подобие навигации, алфавита песен или исполнителей. Будем бегать по нему с помощью нашего парсера. Давайте представим, что мы смогли накатать скрипт, который отлично собирает нужную вам информацию. После просмотра полученного понимаешь, что 20-30% от общего количества спарсенных материалов (а всего с первого сайта удалось сграбить около 3 тысяч текстов песен) содержит внешние ссылки на другие сайты. Не забываем удалять их, дабы не стать линкопомойкой. Мы на этом чуть не обожглись. К тому же ГС сайт очень часто имел столько неявных структурных решений, что голова кругом идёт. Мне встречались разные ссылки, типа http://адресВадика, которые совершенно не должны были быть в списке исполнителей. Скрипт умирал каждый раз, после встречи с таким непонятным багом. В общем первый сайт нам удалось спарсить за 1 месяц. Да, это долго, но мы не имели опыта (зато теперь смогу спарсить всё, что только можно). Последующие сайты стали парситься за 3-4 дня. т.е. скрипт мог работать неделю, а сам код писали за несколько дней.
Этап 4 - Прикручиваем плеер к сайту Пусть это будет нашей фишкой. На сайтах-конкурентах такого не было, так что можно вылезти с помощью эдакой фишки. Мы нашли портал, на котором можно через GET-строку передать ключевые слова и получить обратно iframe с плеером. Всё очень красиво и просто. Вам не надо хранить песни на серваке, только пути к ним на сервере другой площадки (удалённый url).
Этап 5 - Приделываем видео Представьте, что у каждого второго материала будет видео с ютюба. Гугль проиндексирует его как картинку, т.е. вы сможете продвигаться картинками. Это ли не плюс?) Мы загорелись этой идеей и написали скриптик, который будет динамически отправлять ключевики (название песни + исполнитель) и получать обратно видео. Если очень заинтересует, то пишите в личку, бесплатно скину пример скрипта.
Этап 6 - Делаем уникальный контент с помощью парсера Это самый сложный этап. Напарник предложил мне спарсить описания для исполнителей. И дабы хотя бы немного уникализировать контент - прогнать всё через синонимайзер. Мы очень долго писали скрипт, который сможет передавать частями код на сервис, отвечающий за синонимайзинг (заметьте - я ничего не использую своего, только сторонние ресурсы). Код есть в наличии, но он стоял таких усилий и такого усердия, что просто так не отдам никому (пишите в личку, поболтаем по этому поводу). На выходе мы получили много много описаний самых разных певцов. Да, этот текст является читабельным на 40-50%, но это уникальный материал, хотя бы частично. Лучше пусть будет, чем нет, подумали мы.
Этап X - Промежуточные итоги На данном этапе у нас уже есть шаблон сайта и огроменная база. Такое количество информации собиралось бы несколько лет, если работать руками (добавлять через форму и т.д.). Мы не составляли подробно семантическое ядро. Это упрощает процесс, потому что для такого огромного количества страниц делать его пришлось бы несколько лет. Просто решили в название страницы использовать связку "Текст песни + Исполнитель+ - + НазваниеПесни". Так же включили несколько ключевых слов в блоки страницы, точные фразы, разбавленные и т.д.
Этап 7 - Индексация поисковиками Добавили сайт в аддурилки и ждём. Для разнообразия прогоням по твиттеру и liveinternet сайт с помощью сервиса IndexGator (очень хорошая вещь, рекомендую. Страницы влетают в индекс, к тому же ссылки с Твиттера, как было замечено, хорошо влияют на увеличение позиции по НЧ запросам). Реакция от поисковиков была очень разная. Привожу индексацию сайта от Яндекса: Яндекс нас не взлюбил сразу. Мы вошли нормально в индекс только в январе месяце, когда показали этому поисковику "Русские не сдаются". Яша постоянно выкидывал нас из индекса и вообще проиндексировал первую страницу только через полтора месяца. Наверняка это из-за ворованного контента. ну да ладно. Google был более адекватен в этом плане и смог запустить в свой индекс практически 80 тысяч страниц. Вот сводка: Могу сказать, что всё время индексации мы дополняли базы новыми материалами. К тому же решили сделать Музыкальный блог, в который запихали несколько уникальных статей на музыкальную тематику. Это тоже поспособствовало лучшей индексации.
Этап 8 - Наращивание трафика Хочу заметить, что мы не покупали ссылки, никак не продвигали сайт кроме естественного продвижения. Наша цель - много НЧ запросов. Привожу пример по показам и посетителям из Google Analytics за последний месяц. Вроде бы неплохие такие показатели. Пришло время монетизировать сайт, подумал я.
Этап 9 - Страшная монетизация Это было ОЧЕНЬ сложно. В Adsence нас с первого раза не взяли, потому что их рекламные блоки не должны быть расположены рядом с контентом, защищённым авторским правом. Мы попробовали использовать тизерную рекламу (сервис тизернет), но за месяц заработали целых 80 рублей. Не густо. Я хотел уже бросить сайт, т.к. не видел вариантов монетизации, но вдруг обратил внимание, что на других аналогичных площадках есть реклама от Гугля. Начал искать причину такого странного отношения к моему проекту и нашёл. Если захотите почитать подробней способ обхода авторских прав на Adsence, то жду вас на моём блоге. Статью такую писал, вдруг кого заинтересует http://seo-love.ru/kejsy-gotovye-res...e-adsence.html
Вроде бы всё, ура, реклама есть на портале. Пока что за неделю принесло всего 300 рублей, но это ПОКА. Планируем увеличивать посещалку за счёт продвижения по НЧ запросам, покупки ссылок и т.д.
Выводы Уникальность контента - не всегда главный показатель хорошей выдачи. Если у вас будет грамотно спроектирован сайт, то таким методом можно парсить любой контент: видео, музыку, фото и т.д. Главное - количество! Монетизировать такой трафик тоже возможно, если подойти ко всему процессу досконально и не бросать начатое. Если вас заинтересовала данная статья, либо вы хотите сотрудничать со мной, хотите получить парсер и т.д., то прошу на мой блог SEO-Love.ru.
Права на тексты песен, переводы принадлежат их авторам. Все тексты и переводы представлены только для ознакомления. С одной стороны ерунда, всего лишь одна строчка. Но она позволяет обойти проблему с авторским контентом на ваших страницах.
Ну-ну, а кто вам собственно дал право представлять эти материалы для ознакомления на своем сайте и плюс к этому еще и зарабатывать на этом деньги?) Эта ваша строчка не имеет вообще никакого значения, адсенс влегкую вам выпишет бан за нарушение правил.
thomas, специально сделал раздел для правообладателей, в котором написано:
Развернуть текст
Портал Mus-Text.Ru действует в соответствии с законодательством РФ о защите информации и авторских прав.
Весь контент размещенный на сайте представляет собой материал, находящийся в свободном доступе для просмотра и скачивания в сети Интернет. Сбор доступных в Интернете материалов и их размещение в каталоге осуществляется в автоматическом режиме. Администрация сайта в данном случае не осуществляет контроль над добавляемым контентом.
Администрация сайта также не осуществляет деятельность, связанную с публикацией нелицензионного контента, незаконно украденного и находящегося под защитой правообладателей. Автоматизированная система публикует только находящийся в свободном доступе материал из открытых источников.
Ресурс Mus-Text.Ru всегда открыт для сотрудничества с правообладателями. Если Ваши исключительные права на объекты авторской собственности нарушаются каким-либо образом с использованием данного ресурса (размещение информации, защищенной авторским правом), администрация готова оказать Вам содействие и удалить с сайта соответствующие материалы.
При возникновении спорных ситуаций мы просим Вас прислать нам письмо в электронном виде, где необходимо указать следующее:
1. Документальное подтверждение Ваших прав на материал, защищённый авторским правом:
отсканированный документ с печатью, либо email с официального почтового домена компании правообладателя, либо иная информация, позволяющая однозначно идентифицировать Вас как правообладателя данного материала. 2. Прямые ссылки на страницы сайта, которые содержат данные, опубликованные с нарушением авторских прав. При получении письма, содержащего данное подтверждение, в течение 48 часов мы удалим с сайта защищенный авторским правом контент. Либо по вашей же просьбе заменим материал на тот, который вас строит.
[свернуть]
С точки зрения нашего законодательства очень трудно придраться. Да и законы у нас очень мутные
ТС да, но только домен в зоне ru сегодня отключить проще простого, школота с помощью СИ делает это за 500 (пицот) руб. А если домен в международной зоне то все будет отлично
основные вопросы: - возраст акаунта адсенс? - как давно висит на вашем сайте эта схема, чтобы утверждать, что все ок? - если не секрет, какой у вас доход на таком трафике? (cpm - доход с 1к показов)
ну и прямо скажу - вы меньше смотрите на законодательство РФ, а больше на представления о "правильно - неправильно" самого гугла. Вы никому потом не докажете в случае бана акаунта, что "по закону РФ это легально"