Цепи Маркова

(Ответов: 13, Просмотров: 6526)
Страница 1 из 2 12 Последняя
  1. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 3,761
    • Записей в дневнике: 83
    • Репутация: 688
    • Webmoney BL:     Формальный аттестат ?
    Цепи Маркова – это последовательно каких-либо случайных событий, которые имеют определенное число исходов и характеризуются тем, что при фиксированном настоящем, будущее не будет зависеть от прошлого.


    Ничего не поняли? Я тоже. Вообще-то, цепи Маркова, это фундаментальная теория из высшей математики, которая нашла свое применение в сфере SEO, а именно для генерации текстов. Данную теорию в последнее время часто поднимают на SEO-форумах и она уже поросла неплохим количеством легенд. В этой статье я на пальцах попытаюсь показать смысл этой теории и как она работает.

    Суть цепей Маркова состоит в том, что из исходного текста, с помощью деления его на слова и сохранения результатов, какие слова за какими идут в тексте, потом генерируется совершенно новый текст, который для поисковых систем получается уникальным. Не буду скрывать, что получается бредовый текст, но при больших исходных данных может получится кое-что интересное.

    Для наглядности, приведу просто пример. К примеру, возьмем предложение «SEO форум webmaster.ru – лучший форум рунета на тему SEO и продвижения сайтов». А теперь записывает слова, которые идут после каждого слова предложения, вот что получается:

    Цитата:
    SEO – форум, и
    Форум – webmasters.ru, рунета
    webmasters.ru – лучший
    лучший – форум
    рунета – на
    на – тему
    тему – SEO
    и – продвижения
    продвижения – сайтов
    сайтов – SEO
    Как видите, цикл замкнулся, так как после последнего слова предложения мы взяли первое предложение темы. Теперь наглядно видно, почему это цепи, а почему Маркова – потому что назвали в честь ученого. Теперь возьмем любое слова из предложения, к примеру, это будет «форум». И продолжим цепочку. Так как возле слова 2 значения, выберем «рунета». Вот что получается:

    Цитата:
    Форум рунета на тему SEO и продвижения сайтов SEO форум webmasters.ru лучший форум.
    В результате, получился не совсем уникальный и не совсем текст, но смысл в том, что любые два слова, которые получились в сгенерированном таким образом тексте могут встретится в тексте, который пишет человек. Смотрите сами, какие интересные ключевые слова получились в сгенерированном тексте: «форум рунета», «лучший форум» и т.д. И только не надо сейчас мне говорить, что те же самые ключевые слова были в исходном тексте. Конечно, если взять такой маленький текст, то ничего толкового не получится, а вы попробуйте сгенерировать текст цепями Маркова объемом хотя бы в несколько килобайт. То что получится на выходе, будет достаточно интерсным.

    А теперь, собственно, выкладываю код цепей Маркова, который я нашел в открытом доступе.

    PHP код:
    //В этот файл записываем исходный текст 
    $source_text 'text.txt'
    //Словарь, в который записываются слова, идущей после слов 
    $dictionary = array(); 
    function 
    load() 

       global 
    $dictionary,$source_text
       
    //Читаем исходный файл 
       
    $str file_get_contents($source_text); 
       
    //Превращаем текст в одну строку 
       
    $str preg_replace("#[\r\n]#","",$str); 
       
    //Выделяем все слова из строки (выражение в кавычках или в скобках считается одним словом) 
       
    preg_match_all("#((\"[^\"]+\")|(\([^\)]+\))|([^\(\)\"'\s]+))(\s+|\z)#",$str,$parts); 
       
    $words $parts[1]; 
       
    $count count($words); 

       
    //Заполняем словарь 
       
    for( $i 0$i $count$i++ ) 
       { 
          if( 
    $i 
          { 
             if( !
    in_array($words[$i],$dictionary[$prev_word]) ) 
                
    $dictionary[$prev_word][] = $words[$i]; 
          } 
          
    $prev_word $words[$i]; 
          if( empty(
    $dictionary[$prev_word]) ) 
             
    $dictionary[$prev_word] = array(); 
       } 


    //Функция для генерации текста. $count – количество слов, которое будем генерировать
    function genText($count

       global 
    $dictionary
       
    $words array_keys($dictionary); 
       
    $word $words[0]; 
       
    $text =''
       for( 
    $i 0$i $count$i++ ) 
       { 
          
    $text .= ' '.$word
          
    //Следующее слово - случайное слово из тех, что идут в исходном тексте за текущим словом 
          
    $word $dictionary[$word][rand(0,count($dictionary[$word])-1)]; 
       } 
       return 
    $text


    load(); 
    echo 
    genText(100); 
    При небольших знаниях в области программирования можно контролировать плотность ключевых слов в тексте, создавать цепочки из трех или четырех слов и другое. Основной секрет, который надо знать – напарсить хороший словарь. А где его парсить? Знаю человека, который напарсил словарь в Yahoo Answers и его дорвеи по фарме очень неплохо жили в индесе. А дальше - думайте или делить советами.
    Миниатюры Chain.jpg  
    100-150$ в месяц с сайта с ТИЦ 10 зарабатывают здесь.
    Moipost.ru - seo блог и мой Twitter.
    • 0
  2. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,149
    • Репутация: 100
    С ростом "умности" яши такой бредотекст не проканает, как по мне. А в гугле, сомневаюсь что надолго.
    • 0
  3. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 3,761
    • Записей в дневнике: 83
    • Репутация: 688
    • Webmoney BL:     Формальный аттестат ?
    Цитата:
    Сообщение от r2d2 Посмотреть сообщение
    А в гугле, сомневаюсь что надолго.
    Где-то на форумах читал, что вроде как гугл эти цепи научился палить. В любом случае, как говорил Хаус, людям верить нельзя. Надо проверять самому.
    100-150$ в месяц с сайта с ТИЦ 10 зарабатывают здесь.
    Moipost.ru - seo блог и мой Twitter.
    • 0
  4. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,149
    • Репутация: 100
    Цитата:
    Сообщение от grazer Посмотреть сообщение
    Надо проверять самому.
    как -то влом проверять многовероятную хрень, которая не сработает
    • 0
  5. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 3,761
    • Записей в дневнике: 83
    • Репутация: 688
    • Webmoney BL:     Формальный аттестат ?
    Цитата:
    Сообщение от r2d2 Посмотреть сообщение
    как -то влом проверять многовероятную хрень, которая не сработает
    Вообще-то, многие доргены основаны на этой теории.
    100-150$ в месяц с сайта с ТИЦ 10 зарабатывают здесь.
    Moipost.ru - seo блог и мой Twitter.
    • 0
  6. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,149
    • Репутация: 100
    Цитата:
    Сообщение от grazer Посмотреть сообщение
    Вообще-то, многие доргены основаны на этой теории.
    ага, которые вылетают чере 1-2 апа, а долгожители основаны на доработанной, и можно даже сказать, полностью передаланной теории ) и заметим - не спаленой... и никто не зунает, где могилка его ...
    • 0
  7. Дипломник Аватар для Markus
    • Регистрация: 15.12.2009
    • Сообщений: 129
    • Репутация: 37
    Вся теория основана на словарях... Вы думаете алгоритм плохой, отчасти. Ведь при мешалке ядро словаря одно и тоже, те уника нет. А бан можно получить и по другим факторам, например, тошноты, ****а, ссылки на баненные ресурсы, % превышение нормального контента к мусору.. поэтому и сайты вылетают.
    Почему копипаст нормально живет.. ?
    • 0
  8. Гуру Аватар для mazder
    • Регистрация: 08.09.2009
    • Сообщений: 1,699
    • Репутация: 34
    ни когда не пользовался таким контентом...
    тупая перетасовка предложений...
    • 0
  9. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,149
    • Репутация: 100
    Цитата:
    Сообщение от Markus Посмотреть сообщение
    Почему копипаст нормально живет.. ?
    не везде и с умом
    • 1
  10. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 3,761
    • Записей в дневнике: 83
    • Репутация: 688
    • Webmoney BL:     Формальный аттестат ?
    Цитата:
    Сообщение от mazder Посмотреть сообщение
    ни когда не пользовался таким контентом...
    тупая перетасовка предложений...
    Не предложений, а словосочетаний. Вообще, если брать исходних и прогнать его через цепи маркова, то, по сути, получаются те же ключивики что и в исходном коде, только текст становится как бы уникальнее и бредовее. Если взять большой словарь и прогнать по нему какой-то текст, то исходный текст и конечный будут совсем разными и ключевики тоже будут разными.
    100-150$ в месяц с сайта с ТИЦ 10 зарабатывают здесь.
    Moipost.ru - seo блог и мой Twitter.
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Контент для генераторов маркова
Вопросы от новичков 3 17.09.2009 06:20