Цепи Маркова

**grazer** · 21.05.2010 04:24

Цепи Маркова – это последовательно каких-либо случайных событий, которые имеют определенное число исходов и характеризуются тем, что при фиксированном настоящем, будущее не будет зависеть от прошлого.

Ничего не поняли? Я тоже. :) Вообще-то, цепи Маркова, это фундаментальная теория из высшей математики, которая нашла свое применение в сфере SEO, а именно для генерации текстов. Данную теорию в последнее время часто поднимают на SEO-форумах и она уже поросла неплохим количеством легенд. В этой статье я на пальцах попытаюсь показать смысл этой теории и как она работает.

Суть цепей Маркова состоит в том, что из исходного текста, с помощью деления его на слова и сохранения результатов, какие слова за какими идут в тексте, потом генерируется совершенно новый текст, который для поисковых систем получается уникальным. Не буду скрывать, что получается бредовый текст, но при больших исходных данных может получится кое-что интересное.

Для наглядности, приведу просто пример. К примеру, возьмем предложение «SEO форум webmaster.ru – лучший форум рунета на тему SEO и продвижения сайтов». А теперь записывает слова, которые идут после каждого слова предложения, вот что получается:

SEO – форум, и
Форум – webmasters.ru, рунета
webmasters.ru – лучший
лучший – форум
рунета – на
на – тему
тему – SEO
и – продвижения
продвижения – сайтов
сайтов – SEO

Как видите, цикл замкнулся, так как после последнего слова предложения мы взяли первое предложение темы. Теперь наглядно видно, почему это цепи, а почему Маркова – потому что назвали в честь ученого. Теперь возьмем любое слова из предложения, к примеру, это будет «форум». И продолжим цепочку. Так как возле слова 2 значения, выберем «рунета». Вот что получается:

Форум рунета на тему SEO и продвижения сайтов SEO форум webmasters.ru лучший форум.

В результате, получился не совсем уникальный и не совсем текст, но смысл в том, что любые два слова, которые получились в сгенерированном таким образом тексте могут встретится в тексте, который пишет человек. Смотрите сами, какие интересные ключевые слова получились в сгенерированном тексте: «форум рунета», «лучший форум» и т.д. И только не надо сейчас мне говорить, что те же самые ключевые слова были в исходном тексте. Конечно, если взять такой маленький текст, то ничего толкового не получится, а вы попробуйте сгенерировать текст цепями Маркова объемом хотя бы в несколько килобайт. То что получится на выходе, будет достаточно интерсным.

А теперь, собственно, выкладываю код цепей Маркова, который я нашел в открытом доступе.

PHP код:

 //В этот файл записываем исходный текст 

$source_text = 'text.txt'; 

//Словарь, в который записываются слова, идущей после слов 

$dictionary = array(); 

function load() 

{ 

   global $dictionary,$source_text; 

   //Читаем исходный файл 

   $str = file_get_contents($source_text); 

   //Превращаем текст в одну строку 

   $str = preg_replace("#[\r\n]#","",$str); 

   //Выделяем все слова из строки (выражение в кавычках или в скобках считается одним словом) 

   preg_match_all("#((\"[^\"]+\")|(\([^\)]+\))|([^\(\)\"'\s]+))(\s+|\z)#",$str,$parts); 

   $words = $parts[1]; 

   $count = count($words); 

 
   //Заполняем словарь 

   for( $i = 0; $i < $count; $i++ ) 

   { 

      if( $i > 0 ) 

      { 

         if( !in_array($words[$i],$dictionary[$prev_word]) ) 

            $dictionary[$prev_word][] = $words[$i]; 

      } 

      $prev_word = $words[$i]; 

      if( empty($dictionary[$prev_word]) ) 

         $dictionary[$prev_word] = array(); 

   } 

} 

 
//Функция для генерации текста. $count – количество слов, которое будем генерировать

function genText($count) 

{ 

   global $dictionary; 

   $words = array_keys($dictionary); 

   $word = $words[0]; 

   $text =''; 

   for( $i = 0; $i < $count; $i++ ) 

   { 

      $text .= ' '.$word; 

      //Следующее слово - случайное слово из тех, что идут в исходном тексте за текущим словом 

      $word = $dictionary[$word][rand(0,count($dictionary[$word])-1)]; 

   } 

   return $text; 

} 

 
load(); 

echo genText(100);

При небольших знаниях в области программирования можно контролировать плотность ключевых слов в тексте, создавать цепочки из трех или четырех слов и другое. Основной секрет, который надо знать – напарсить хороший словарь. А где его парсить? Знаю человека, который напарсил словарь в Yahoo Answers и его дорвеи по фарме очень неплохо жили в индесе. А дальше - думайте или делить советами.

**~~r2d2~~** · 21.05.2010 11:35

С ростом "умности" яши такой бредотекст не проканает, как по мне. А в гугле, сомневаюсь что надолго.

**grazer** · 21.05.2010 13:47

Сообщение от r2d2

А в гугле, сомневаюсь что надолго.

Где-то на форумах читал, что вроде как гугл эти цепи научился палить. В любом случае, как говорил Хаус, людям верить нельзя. Надо проверять самому.

**~~r2d2~~** · 21.05.2010 14:10

Сообщение от grazer

Надо проверять самому.

как -то влом проверять многовероятную хрень, которая не сработает :)

**grazer** · 21.05.2010 15:22

Сообщение от r2d2

как -то влом проверять многовероятную хрень, которая не сработает

Вообще-то, многие доргены основаны на этой теории. :)

**~~r2d2~~** · 21.05.2010 16:21

Сообщение от grazer

Вообще-то, многие доргены основаны на этой теории.

ага, которые вылетают чере 1-2 апа, а долгожители основаны на доработанной, и можно даже сказать, полностью передаланной теории :)) и заметим - не спаленой... и никто не зунает, где могилка его ...:)

**Markus** · 21.05.2010 18:39

Вся теория основана на словарях... Вы думаете алгоритм плохой, отчасти. Ведь при мешалке ядро словаря одно и тоже, те уника нет. А бан можно получить и по другим факторам, например, тошноты, ****а, ссылки на баненные ресурсы, % превышение нормального контента к мусору.. поэтому и сайты вылетают.
Почему копипаст нормально живет.. ?

**mazder** · 21.05.2010 20:08

ни когда не пользовался таким контентом...
тупая перетасовка предложений...

**~~r2d2~~** · 21.05.2010 21:35

Сообщение от Markus

Почему копипаст нормально живет.. ?

не везде и с умом

**grazer** · 21.05.2010 22:55

Сообщение от mazder

ни когда не пользовался таким контентом...
тупая перетасовка предложений...

Не предложений, а словосочетаний. Вообще, если брать исходних и прогнать его через цепи маркова, то, по сути, получаются те же ключивики что и в исходном коде, только текст становится как бы уникальнее и бредовее. Если взять большой словарь и прогнать по нему какой-то текст, то исходный текст и конечный будут совсем разными и ключевики тоже будут разными.

	21.05.2010 11:35 #2
~~r2d2~~ Banned Регистрация: 04.09.2009 Сообщений: 2,143 Репутация: 104	С ростом "умности" яши такой бредотекст не проканает, как по мне. А в гугле, сомневаюсь что надолго.
0 r2d2

	21.05.2010 13:47 #3
grazer Super Moderator Регистрация: 03.09.2009 Сообщений: 5,202 Записей в дневнике: 83 Репутация: 2384 Webmoney BL: ?	Сообщение от r2d2 А в гугле, сомневаюсь что надолго. Где-то на форумах читал, что вроде как гугл эти цепи научился палить. В любом случае, как говорил Хаус, людям верить нельзя. Надо проверять самому. Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет. Пишу про SEO в 2026 в телеграме, подписывайтесь (cнг/бурж seo).
0 grazer

	21.05.2010 14:10 #4
~~r2d2~~ Banned Регистрация: 04.09.2009 Сообщений: 2,143 Репутация: 104	Сообщение от grazer Надо проверять самому. как -то влом проверять многовероятную хрень, которая не сработает :)
0 r2d2

	21.05.2010 15:22 #5
grazer Super Moderator Регистрация: 03.09.2009 Сообщений: 5,202 Записей в дневнике: 83 Репутация: 2384 Webmoney BL: ?	Сообщение от r2d2 как -то влом проверять многовероятную хрень, которая не сработает Вообще-то, многие доргены основаны на этой теории. :) Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет. Пишу про SEO в 2026 в телеграме, подписывайтесь (cнг/бурж seo).
0 grazer

	21.05.2010 16:21 #6
~~r2d2~~ Banned Регистрация: 04.09.2009 Сообщений: 2,143 Репутация: 104	Сообщение от grazer Вообще-то, многие доргены основаны на этой теории. ага, которые вылетают чере 1-2 апа, а долгожители основаны на доработанной, и можно даже сказать, полностью передаланной теории :)) и заметим - не спаленой... и никто не зунает, где могилка его ...:)
0 r2d2

Цепи Маркова

Опции темы

Спасибо сказали:

Тэги топика:

Похожие темы

Контент для генераторов маркова

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	21.05.2010 18:39 #7
Markus Дипломник Регистрация: 15.12.2009 Сообщений: 130 Репутация: 37	Вся теория основана на словарях... Вы думаете алгоритм плохой, отчасти. Ведь при мешалке ядро словаря одно и тоже, те уника нет. А бан можно получить и по другим факторам, например, тошноты, ****а, ссылки на баненные ресурсы, % превышение нормального контента к мусору.. поэтому и сайты вылетают. Почему копипаст нормально живет.. ?
0 Markus

	21.05.2010 20:08 #8
mazder shows Регистрация: 08.09.2009 Сообщений: 1,709 Репутация: 35	ни когда не пользовался таким контентом... тупая перетасовка предложений...
-1 mazder

	21.05.2010 21:35 #9
~~r2d2~~ Banned Регистрация: 04.09.2009 Сообщений: 2,143 Репутация: 104	Сообщение от Markus Почему копипаст нормально живет.. ? не везде и с умом
1 r2d2

	21.05.2010 22:55 #10
grazer Super Moderator Регистрация: 03.09.2009 Сообщений: 5,202 Записей в дневнике: 83 Репутация: 2384 Webmoney BL: ?	Сообщение от mazder ни когда не пользовался таким контентом... тупая перетасовка предложений... Не предложений, а словосочетаний. Вообще, если брать исходних и прогнать его через цепи маркова, то, по сути, получаются те же ключивики что и в исходном коде, только текст становится как бы уникальнее и бредовее. Если взять большой словарь и прогнать по нему какой-то текст, то исходный текст и конечный будут совсем разными и ключевики тоже будут разными. Домены, хостинг и VPS 10 лет доверяю REG.RU. Проблем нет. Пишу про SEO в 2026 в телеграме, подписывайтесь (cнг/бурж seo).
0 grazer

Цепи Маркова

Опции темы

Спасибо сказали:

Тэги топика:

Похожие темы

Контент для генераторов маркова

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Баннеры

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры