Цепи Маркова

(Ответов: 14, Просмотров: 27076)
Страница 1 из 2 12 Последняя
  1. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,190
    • Записей в дневнике: 83
    • Репутация: 2377
    • Webmoney BL: ?
    Цепи Маркова – это последовательно каких-либо случайных событий, которые имеют определенное число исходов и характеризуются тем, что при фиксированном настоящем, будущее не будет зависеть от прошлого.


    Ничего не поняли? Я тоже. :) Вообще-то, цепи Маркова, это фундаментальная теория из высшей математики, которая нашла свое применение в сфере SEO, а именно для генерации текстов. Данную теорию в последнее время часто поднимают на SEO-форумах и она уже поросла неплохим количеством легенд. В этой статье я на пальцах попытаюсь показать смысл этой теории и как она работает.

    Суть цепей Маркова состоит в том, что из исходного текста, с помощью деления его на слова и сохранения результатов, какие слова за какими идут в тексте, потом генерируется совершенно новый текст, который для поисковых систем получается уникальным. Не буду скрывать, что получается бредовый текст, но при больших исходных данных может получится кое-что интересное.

    Для наглядности, приведу просто пример. К примеру, возьмем предложение «SEO форум webmaster.ru – лучший форум рунета на тему SEO и продвижения сайтов». А теперь записывает слова, которые идут после каждого слова предложения, вот что получается:

    SEO – форум, и
    Форум – webmasters.ru, рунета
    webmasters.ru – лучший
    лучший – форум
    рунета – на
    на – тему
    тему – SEO
    и – продвижения
    продвижения – сайтов
    сайтов – SEO
    Как видите, цикл замкнулся, так как после последнего слова предложения мы взяли первое предложение темы. Теперь наглядно видно, почему это цепи, а почему Маркова – потому что назвали в честь ученого. Теперь возьмем любое слова из предложения, к примеру, это будет «форум». И продолжим цепочку. Так как возле слова 2 значения, выберем «рунета». Вот что получается:

    Форум рунета на тему SEO и продвижения сайтов SEO форум webmasters.ru лучший форум.
    В результате, получился не совсем уникальный и не совсем текст, но смысл в том, что любые два слова, которые получились в сгенерированном таким образом тексте могут встретится в тексте, который пишет человек. Смотрите сами, какие интересные ключевые слова получились в сгенерированном тексте: «форум рунета», «лучший форум» и т.д. И только не надо сейчас мне говорить, что те же самые ключевые слова были в исходном тексте. Конечно, если взять такой маленький текст, то ничего толкового не получится, а вы попробуйте сгенерировать текст цепями Маркова объемом хотя бы в несколько килобайт. То что получится на выходе, будет достаточно интерсным.

    А теперь, собственно, выкладываю код цепей Маркова, который я нашел в открытом доступе.

    PHP код:
    //В этот файл записываем исходный текст 
    $source_text 'text.txt'
    //Словарь, в который записываются слова, идущей после слов 
    $dictionary = array(); 
    function 
    load() 

       global 
    $dictionary,$source_text
       
    //Читаем исходный файл 
       
    $str file_get_contents($source_text); 
       
    //Превращаем текст в одну строку 
       
    $str preg_replace("#[\r\n]#","",$str); 
       
    //Выделяем все слова из строки (выражение в кавычках или в скобках считается одним словом) 
       
    preg_match_all("#((\"[^\"]+\")|(\([^\)]+\))|([^\(\)\"'\s]+))(\s+|\z)#",$str,$parts); 
       
    $words $parts[1]; 
       
    $count count($words); 

       
    //Заполняем словарь 
       
    for( $i 0$i $count$i++ ) 
       { 
          if( 
    $i 
          { 
             if( !
    in_array($words[$i],$dictionary[$prev_word]) ) 
                
    $dictionary[$prev_word][] = $words[$i]; 
          } 
          
    $prev_word $words[$i]; 
          if( empty(
    $dictionary[$prev_word]) ) 
             
    $dictionary[$prev_word] = array(); 
       } 


    //Функция для генерации текста. $count – количество слов, которое будем генерировать
    function genText($count

       global 
    $dictionary
       
    $words array_keys($dictionary); 
       
    $word $words[0]; 
       
    $text =''
       for( 
    $i 0$i $count$i++ ) 
       { 
          
    $text .= ' '.$word
          
    //Следующее слово - случайное слово из тех, что идут в исходном тексте за текущим словом 
          
    $word $dictionary[$word][rand(0,count($dictionary[$word])-1)]; 
       } 
       return 
    $text


    load(); 
    echo 
    genText(100); 
    При небольших знаниях в области программирования можно контролировать плотность ключевых слов в тексте, создавать цепочки из трех или четырех слов и другое. Основной секрет, который надо знать – напарсить хороший словарь. А где его парсить? Знаю человека, который напарсил словарь в Yahoo Answers и его дорвеи по фарме очень неплохо жили в индесе. А дальше - думайте или делить советами.
    Миниатюры Chain.jpg  
    Переезжай на VPS (от 4$/мес).
    Жду на своем блоге. Обязательно подписывайтесь на RSS, не пожалеете.
    • 2

    Спасибо сказали:

    GwynnBleiidd(03.01.2013), sanchoys14(07.09.2013),
  2. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    С ростом "умности" яши такой бредотекст не проканает, как по мне. А в гугле, сомневаюсь что надолго.
    • 0
  3. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,190
    • Записей в дневнике: 83
    • Репутация: 2377
    • Webmoney BL: ?
    Цитата Сообщение от r2d2 Посмотреть сообщение
    А в гугле, сомневаюсь что надолго.
    Где-то на форумах читал, что вроде как гугл эти цепи научился палить. В любом случае, как говорил Хаус, людям верить нельзя. Надо проверять самому.
    Переезжай на VPS (от 4$/мес).
    Жду на своем блоге. Обязательно подписывайтесь на RSS, не пожалеете.
    • 0
  4. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    Цитата Сообщение от grazer Посмотреть сообщение
    Надо проверять самому.
    как -то влом проверять многовероятную хрень, которая не сработает :)
    • 0
  5. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,190
    • Записей в дневнике: 83
    • Репутация: 2377
    • Webmoney BL: ?
    Цитата Сообщение от r2d2 Посмотреть сообщение
    как -то влом проверять многовероятную хрень, которая не сработает
    Вообще-то, многие доргены основаны на этой теории. :)
    Переезжай на VPS (от 4$/мес).
    Жду на своем блоге. Обязательно подписывайтесь на RSS, не пожалеете.
    • 0
  6. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    Цитата Сообщение от grazer Посмотреть сообщение
    Вообще-то, многие доргены основаны на этой теории.
    ага, которые вылетают чере 1-2 апа, а долгожители основаны на доработанной, и можно даже сказать, полностью передаланной теории :)) и заметим - не спаленой... и никто не зунает, где могилка его ...:)
    • 0
  7. Дипломник Аватар для Markus
    • Регистрация: 15.12.2009
    • Сообщений: 130
    • Репутация: 37
    Вся теория основана на словарях... Вы думаете алгоритм плохой, отчасти. Ведь при мешалке ядро словаря одно и тоже, те уника нет. А бан можно получить и по другим факторам, например, тошноты, ****а, ссылки на баненные ресурсы, % превышение нормального контента к мусору.. поэтому и сайты вылетают.
    Почему копипаст нормально живет.. ?
    • 0
  8. shows Аватар для mazder
    • Регистрация: 08.09.2009
    • Сообщений: 1,707
    • Репутация: 35
    ни когда не пользовался таким контентом...
    тупая перетасовка предложений...
    • -1
  9. Banned
    • Регистрация: 04.09.2009
    • Сообщений: 2,143
    • Репутация: 104
    Цитата Сообщение от Markus Посмотреть сообщение
    Почему копипаст нормально живет.. ?
    не везде и с умом
    • 1
  10. Super Moderator Аватар для grazer
    • Регистрация: 03.09.2009
    • Сообщений: 5,190
    • Записей в дневнике: 83
    • Репутация: 2377
    • Webmoney BL: ?
    Цитата Сообщение от mazder Посмотреть сообщение
    ни когда не пользовался таким контентом...
    тупая перетасовка предложений...
    Не предложений, а словосочетаний. Вообще, если брать исходних и прогнать его через цепи маркова, то, по сути, получаются те же ключивики что и в исходном коде, только текст становится как бы уникальнее и бредовее. Если взять большой словарь и прогнать по нему какой-то текст, то исходный текст и конечный будут совсем разными и ключевики тоже будут разными.
    Переезжай на VPS (от 4$/мес).
    Жду на своем блоге. Обязательно подписывайтесь на RSS, не пожалеете.
    • 0
Страница 1 из 2 12 Последняя

Похожие темы

Темы Раздел Ответов Последний пост
Контент для генераторов маркова
Вопросы от новичков 3 17.09.2009 06:20

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры