Создаём сайт-парсер для заработка на авторском контенте

(Ответов: 14, Просмотров: 9352)
Страница 1 из 2 12 Последняя
  1. Студент Аватар для Михаил Роганин
    • Регистрация: 12.02.2015
    • Сообщений: 47
    • Репутация: 21
    Приветствую вас, уважаемые форумчане!
    Сегодня решил поделиться кейсом о поэтапном создании сайта, который будет парсить авторский контент с других площадок (речь не идёт о воровстве, глумиться буду над текстами песен "Только для ознакомления"). Идея наверняка стара как мир, но работает до сих пор. Все результаты основаны на жизненных этапах моего сайта mus-text.ru.

    Этап 1 - Идея
    Как-то днём я искал текст песни Руки Вверх (не смейтесь, люблю эту группу). После блуждания по ГС сайтам, которые сидят в ТОП3 выдачи по запросам Текст песни Руки Вверх ..., я пришёл к выводу, что контент везде одинаковый, но почему-то кто-то вверху, а кто-то снизу. Запросов со словами "Текст песни..." в месяц около миллиона. А почему бы не попробовать и мне создать сайт про текста песен? Туда же прилеплю парочку фишек, типа плеера под каждую песню (на тот момент я понятия не имел, как можно для нескольких тысяч песен собрать кучу мп3 записей + как их хранить на сервере? Огромный вопрос), сделаю более-менее нормальную оптимизацию сайта под seo. Решил побороть поисковик огромным наплывом низкочастотных запросов, ведь материала должно было быть много. А монетизировать буду с помощью рекламки от Adsence (я и не знал ещё, сколько геморроя будет с ней).

    Этап 2 - Команда и инструменты
    В напарники я взял очень умного паренька, с которым вместе учился в универе. Мы оба были php-шники, из-за этого долго не думали и перекинулись именно на этот язык программирования. Тем более PHP очень хорошо работает со строками, имеет встроенный CURL, дабы парсить сайты. Но я как-то не захотел юзать именно CURl, а нашёл стороннюю библиотеку PHP Simple HTML DOM Parser. Не стану описывать все способы работы с этой библиотекой именно здесь, потому что это займёт много времени, да и к тому же я уже описывал принципы работы с ней в своём блоге. Вот сама статья http://seo-love.ru/programmirovanie/...v-s-nulya.html. Суть вся заключается в работе с DOM-моделью странички, которую вы скачаете. Куча функций поможет пробежаться по отдельным блокам, выдрать любую информацию, что вам потребуется. Библиотечка очень проста в использовании, так что советую всем начинающим программистам парсеров.

    Этап 3 - Анализ конкурентов, наполнение базы, дизайн сайта
    Дизайн сайта рисовали сами. Сразу скажу, что это совсем не идеал и в дальнейшем можно было бы обновить его. Но пока покатит и так Главное - большое количество текстов и хорошая перелинковка.
    Вместе с напарником мы нашли несколько тематических сайтов, которые могли бы спарсить. Для начала решили попрактиковаться на простом сайтике реп-песен. Вроде бы простенькая структура, всё должно быть хорошо. К тому же почти на каждой площадке такого типа есть что-то подобие навигации, алфавита песен или исполнителей. Будем бегать по нему с помощью нашего парсера.
    Давайте представим, что мы смогли накатать скрипт, который отлично собирает нужную вам информацию. После просмотра полученного понимаешь, что 20-30% от общего количества спарсенных материалов (а всего с первого сайта удалось сграбить около 3 тысяч текстов песен) содержит внешние ссылки на другие сайты. Не забываем удалять их, дабы не стать линкопомойкой. Мы на этом чуть не обожглись. К тому же ГС сайт очень часто имел столько неявных структурных решений, что голова кругом идёт. Мне встречались разные ссылки, типа http://адресВадика, которые совершенно не должны были быть в списке исполнителей. Скрипт умирал каждый раз, после встречи с таким непонятным багом.
    В общем первый сайт нам удалось спарсить за 1 месяц. Да, это долго, но мы не имели опыта (зато теперь смогу спарсить всё, что только можно). Последующие сайты стали парситься за 3-4 дня. т.е. скрипт мог работать неделю, а сам код писали за несколько дней.

    Этап 4 - Прикручиваем плеер к сайту
    Пусть это будет нашей фишкой. На сайтах-конкурентах такого не было, так что можно вылезти с помощью эдакой фишки. Мы нашли портал, на котором можно через GET-строку передать ключевые слова и получить обратно iframe с плеером. Всё очень красиво и просто. Вам не надо хранить песни на серваке, только пути к ним на сервере другой площадки (удалённый url).

    Этап 5 - Приделываем видео
    Представьте, что у каждого второго материала будет видео с ютюба. Гугль проиндексирует его как картинку, т.е. вы сможете продвигаться картинками. Это ли не плюс?) Мы загорелись этой идеей и написали скриптик, который будет динамически отправлять ключевики (название песни + исполнитель) и получать обратно видео. Если очень заинтересует, то пишите в личку, бесплатно скину пример скрипта.

    Этап 6 - Делаем уникальный контент с помощью парсера
    Это самый сложный этап. Напарник предложил мне спарсить описания для исполнителей. И дабы хотя бы немного уникализировать контент - прогнать всё через синонимайзер. Мы очень долго писали скрипт, который сможет передавать частями код на сервис, отвечающий за синонимайзинг (заметьте - я ничего не использую своего, только сторонние ресурсы). Код есть в наличии, но он стоял таких усилий и такого усердия, что просто так не отдам никому (пишите в личку, поболтаем по этому поводу).
    На выходе мы получили много много описаний самых разных певцов. Да, этот текст является читабельным на 40-50%, но это уникальный материал, хотя бы частично. Лучше пусть будет, чем нет, подумали мы.

    Этап X - Промежуточные итоги
    На данном этапе у нас уже есть шаблон сайта и огроменная база. Такое количество информации собиралось бы несколько лет, если работать руками (добавлять через форму и т.д.).
    Мы не составляли подробно семантическое ядро. Это упрощает процесс, потому что для такого огромного количества страниц делать его пришлось бы несколько лет.
    Просто решили в название страницы использовать связку "Текст песни + Исполнитель+ - + НазваниеПесни". Так же включили несколько ключевых слов в блоки страницы, точные фразы, разбавленные и т.д.

    Этап 7 - Индексация поисковиками
    Добавили сайт в аддурилки и ждём. Для разнообразия прогоням по твиттеру и liveinternet сайт с помощью сервиса IndexGator (очень хорошая вещь, рекомендую. Страницы влетают в индекс, к тому же ссылки с Твиттера, как было замечено, хорошо влияют на увеличение позиции по НЧ запросам). Реакция от поисковиков была очень разная. Привожу индексацию сайта от Яндекса:
    Нажмите на изображение для увеличения.  Название:	mus-text.jpg  Просмотров:	69  Размер:	62.1 Кб  ID:	17024
    Яндекс нас не взлюбил сразу. Мы вошли нормально в индекс только в январе месяце, когда показали этому поисковику "Русские не сдаются". Яша постоянно выкидывал нас из индекса и вообще проиндексировал первую страницу только через полтора месяца. Наверняка это из-за ворованного контента. ну да ладно. Google был более адекватен в этом плане и смог запустить в свой индекс практически 80 тысяч страниц. Вот сводка:
    Нажмите на изображение для увеличения.  Название:	mus-textgoogle.jpg  Просмотров:	21  Размер:	70.9 Кб  ID:	17025
    Могу сказать, что всё время индексации мы дополняли базы новыми материалами. К тому же решили сделать Музыкальный блог, в который запихали несколько уникальных статей на музыкальную тематику. Это тоже поспособствовало лучшей индексации.

    Этап 8 - Наращивание трафика
    Хочу заметить, что мы не покупали ссылки, никак не продвигали сайт кроме естественного продвижения. Наша цель - много НЧ запросов. Привожу пример по показам и посетителям из Google Analytics за последний месяц.
    Нажмите на изображение для увеличения.  Название:	mus-adsence.jpg  Просмотров:	107  Размер:	86.0 Кб  ID:	17026
    Вроде бы неплохие такие показатели. Пришло время монетизировать сайт, подумал я.

    Этап 9 - Страшная монетизация
    Это было ОЧЕНЬ сложно. В Adsence нас с первого раза не взяли, потому что их рекламные блоки не должны быть расположены рядом с контентом, защищённым авторским правом. Мы попробовали использовать тизерную рекламу (сервис тизернет), но за месяц заработали целых 80 рублей. Не густо.
    Я хотел уже бросить сайт, т.к. не видел вариантов монетизации, но вдруг обратил внимание, что на других аналогичных площадках есть реклама от Гугля. Начал искать причину такого странного отношения к моему проекту и нашёл. Если захотите почитать подробней способ обхода авторских прав на Adsence, то жду вас на моём блоге. Статью такую писал, вдруг кого заинтересует http://seo-love.ru/kejsy-gotovye-res...e-adsence.html

    Вроде бы всё, ура, реклама есть на портале. Пока что за неделю принесло всего 300 рублей, но это ПОКА. Планируем увеличивать посещалку за счёт продвижения по НЧ запросам, покупки ссылок и т.д.

    Выводы
    Уникальность контента - не всегда главный показатель хорошей выдачи. Если у вас будет грамотно спроектирован сайт, то таким методом можно парсить любой контент: видео, музыку, фото и т.д. Главное - количество! Монетизировать такой трафик тоже возможно, если подойти ко всему процессу досконально и не бросать начатое.
    Если вас заинтересовала данная статья, либо вы хотите сотрудничать со мной, хотите получить парсер и т.д., то прошу на мой блог SEO-Love.ru.

    Спасибо всем за внимание!
    • 7

    Спасибо сказали:

    Dany(25.02.2015), dikobraz(25.02.2015), Fooks(25.02.2015), Gann(24.02.2015), Lex-58(24.02.2015), ohmygod(24.02.2015), winter(24.02.2015),
  2. Гуру
    • Регистрация: 20.01.2013
    • Сообщений: 720
    • Репутация: 189
    • Webmoney BL: ?
    Права на тексты песен, переводы принадлежат их авторам. Все тексты и переводы представлены только для ознакомления.
    С одной стороны ерунда, всего лишь одна строчка. Но она позволяет обойти проблему с авторским контентом на ваших страницах.
    Ну-ну, а кто вам собственно дал право представлять эти материалы для ознакомления на своем сайте и плюс к этому еще и зарабатывать на этом деньги?) Эта ваша строчка не имеет вообще никакого значения, адсенс влегкую вам выпишет бан за нарушение правил.
    • 0
  3. Студент Аватар для Михаил Роганин
    • Регистрация: 12.02.2015
    • Сообщений: 47
    • Репутация: 21
    thomas, специально сделал раздел для правообладателей, в котором написано:

    Развернуть текст

    Портал Mus-Text.Ru действует в соответствии с законодательством РФ о защите информации и авторских прав.

    Весь контент размещенный на сайте представляет собой материал, находящийся в свободном доступе для просмотра и скачивания в сети Интернет. Сбор доступных в Интернете материалов и их размещение в каталоге осуществляется в автоматическом режиме. Администрация сайта в данном случае не осуществляет контроль над добавляемым контентом.

    Администрация сайта также не осуществляет деятельность, связанную с публикацией нелицензионного контента, незаконно украденного и находящегося под защитой правообладателей. Автоматизированная система публикует только находящийся в свободном доступе материал из открытых источников.

    Ресурс Mus-Text.Ru всегда открыт для сотрудничества с правообладателями. Если Ваши исключительные права на объекты авторской собственности нарушаются каким-либо образом с использованием данного ресурса (размещение информации, защищенной авторским правом), администрация готова оказать Вам содействие и удалить с сайта соответствующие материалы.

    При возникновении спорных ситуаций мы просим Вас прислать нам письмо в электронном виде, где необходимо указать следующее:

    1. Документальное подтверждение Ваших прав на материал, защищённый авторским правом:

    отсканированный документ с печатью, либо
    email с официального почтового домена компании правообладателя, либо
    иная информация, позволяющая однозначно идентифицировать Вас как правообладателя данного материала.
    2. Прямые ссылки на страницы сайта, которые содержат данные, опубликованные с нарушением авторских прав.
    При получении письма, содержащего данное подтверждение, в течение 48 часов мы удалим с сайта защищенный авторским правом контент. Либо по вашей же просьбе заменим материал на тот, который вас строит.
    [свернуть]


    С точки зрения нашего законодательства очень трудно придраться. Да и законы у нас очень мутные
    • 2

    Спасибо сказали:

    dikobraz(25.02.2015), winter(24.02.2015),
  4. Опытный
    • Регистрация: 12.09.2010
    • Сообщений: 319
    • Репутация: 85
    ТС да, но только домен в зоне ru сегодня отключить проще простого, школота с помощью СИ делает это за 500 (пицот) руб.
    А если домен в международной зоне то все будет отлично
    • 0
  5. Дипломник Аватар для Lex-58
    • Регистрация: 10.02.2015
    • Сообщений: 196
    • Репутация: 76
    • Webmoney BL: ?
    Интересная статья.
    у вас в блоге както давно, когда изучал парсинг читал про PHP Simple HTML DOM Parser, теперь видно что из той статьи получилось=)
    • 0
  6. Гуру Аватар для Елена Ильчук
    • Регистрация: 02.10.2014
    • Сообщений: 515
    • Репутация: 96
    Некоторые нюансы не знала, с некоторыми готова поспорить :)
    Но в целом статья хорошая
    Качественное продвижение Ваших сайтов! Разработка сайтов с нуля.
    • 0
  7. Super Moderator Аватар для zloberman
    • Регистрация: 04.12.2011
    • Сообщений: 962
    • Репутация: 740
    • Webmoney BL: ?
    основные вопросы:
    - возраст акаунта адсенс?
    - как давно висит на вашем сайте эта схема, чтобы утверждать, что все ок?
    - если не секрет, какой у вас доход на таком трафике? (cpm - доход с 1к показов)

    ну и прямо скажу - вы меньше смотрите на законодательство РФ, а больше на представления о "правильно - неправильно" самого гугла. Вы никому потом не докажете в случае бана акаунта, что "по закону РФ это легально"
    • 0
  8. Гуру
    • Регистрация: 09.10.2011
    • Сообщений: 1,813
    • Репутация: 251
    "как создать еще один из 100500 похожих сайтов" :)
    Как раз сегодня искал, о чем же поют Downlow Jhonni B нашел но потрудился.
    • 0
  9. йож Аватар для dikobraz
    • Регистрация: 20.12.2012
    • Сообщений: 117
    • Репутация: 67
    • Webmoney BL: ?
    Михаил Роганин, понравилась особенно фишечка с видео. Успехов желаю! :)
    • 0
  10. Гуру
    • Регистрация: 20.01.2013
    • Сообщений: 720
    • Репутация: 189
    • Webmoney BL: ?
    Михаил Роганин, ну так это для правообладателей, а не для гугла. Честно говоря не очень понятно ваше стремление монетизировать подобный сайт адсенсом.
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Мануал. Прибыльный сайт на неуникальном контенте без воровства.
Прочее 2 27.12.2012 14:58
Создаем автонаполняемый сайт для гугла
Дайджест блогосферы 4 16.08.2012 21:47
Создаем качественный ЖЖ блог для привлечения трафика и заработка
Дайджест блогосферы 0 14.07.2010 17:23
Как заставить яшу индексировать сайт на англоязычном контенте?
Yandex 18 21.12.2009 01:27

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры