Цепи Маркова – это последовательно каких-либо случайных событий, которые имеют определенное число исходов и характеризуются тем, что при фиксированном настоящем, будущее не будет зависеть от прошлого.
Ничего не поняли? Я тоже. :) Вообще-то, цепи Маркова, это фундаментальная теория из высшей математики, которая нашла свое применение в сфере SEO, а именно для генерации текстов. Данную теорию в последнее время часто поднимают на SEO-форумах и она уже поросла неплохим количеством легенд. В этой статье я на пальцах попытаюсь показать смысл этой теории и как она работает.
Суть цепей Маркова состоит в том, что из исходного текста, с помощью деления его на слова и сохранения результатов, какие слова за какими идут в тексте, потом генерируется совершенно новый текст, который для поисковых систем получается уникальным. Не буду скрывать, что получается бредовый текст, но при больших исходных данных может получится кое-что интересное.
Для наглядности, приведу просто пример. К примеру, возьмем предложение «SEO форум webmaster.ru – лучший форум рунета на тему SEO и продвижения сайтов». А теперь записывает слова, которые идут после каждого слова предложения, вот что получается:
SEO – форум, и Форум – webmasters.ru, рунета webmasters.ru – лучший лучший – форум рунета – на на – тему тему – SEO и – продвижения продвижения – сайтов сайтов – SEO
Как видите, цикл замкнулся, так как после последнего слова предложения мы взяли первое предложение темы. Теперь наглядно видно, почему это цепи, а почему Маркова – потому что назвали в честь ученого. Теперь возьмем любое слова из предложения, к примеру, это будет «форум». И продолжим цепочку. Так как возле слова 2 значения, выберем «рунета». Вот что получается:
Форум рунета на тему SEO и продвижения сайтов SEO форум webmasters.ru лучший форум.
В результате, получился не совсем уникальный и не совсем текст, но смысл в том, что любые два слова, которые получились в сгенерированном таким образом тексте могут встретится в тексте, который пишет человек. Смотрите сами, какие интересные ключевые слова получились в сгенерированном тексте: «форум рунета», «лучший форум» и т.д. И только не надо сейчас мне говорить, что те же самые ключевые слова были в исходном тексте. Конечно, если взять такой маленький текст, то ничего толкового не получится, а вы попробуйте сгенерировать текст цепями Маркова объемом хотя бы в несколько килобайт. То что получится на выходе, будет достаточно интерсным.
А теперь, собственно, выкладываю код цепей Маркова, который я нашел в открытом доступе.
PHP код:
//В этот файл записываем исходный текст
$source_text = 'text.txt';
//Словарь, в который записываются слова, идущей после слов
$dictionary = array();
function load()
{
global $dictionary,$source_text;
//Читаем исходный файл
$str = file_get_contents($source_text);
//Превращаем текст в одну строку
$str = preg_replace("#[\r\n]#","",$str);
//Выделяем все слова из строки (выражение в кавычках или в скобках считается одним словом)
preg_match_all("#((\"[^\"]+\")|(\([^\)]+\))|([^\(\)\"'\s]+))(\s+|\z)#",$str,$parts);
$words = $parts[1];
$count = count($words);
//Функция для генерации текста. $count – количество слов, которое будем генерировать
function genText($count)
{
global $dictionary;
$words = array_keys($dictionary);
$word = $words[0];
$text ='';
for( $i = 0; $i < $count; $i++ )
{
$text .= ' '.$word;
//Следующее слово - случайное слово из тех, что идут в исходном тексте за текущим словом
$word = $dictionary[$word][rand(0,count($dictionary[$word])-1)];
}
return $text;
}
load();
echo genText(100);
При небольших знаниях в области программирования можно контролировать плотность ключевых слов в тексте, создавать цепочки из трех или четырех слов и другое. Основной секрет, который надо знать – напарсить хороший словарь. А где его парсить? Знаю человека, который напарсил словарь в Yahoo Answers и его дорвеи по фарме очень неплохо жили в индесе. А дальше - думайте или делить советами.
Вообще-то, многие доргены основаны на этой теории.
ага, которые вылетают чере 1-2 апа, а долгожители основаны на доработанной, и можно даже сказать, полностью передаланной теории :)) и заметим - не спаленой... и никто не зунает, где могилка его ...:)
Вся теория основана на словарях... Вы думаете алгоритм плохой, отчасти. Ведь при мешалке ядро словаря одно и тоже, те уника нет. А бан можно получить и по другим факторам, например, тошноты, ****а, ссылки на баненные ресурсы, % превышение нормального контента к мусору.. поэтому и сайты вылетают. Почему копипаст нормально живет.. ?
ни когда не пользовался таким контентом... тупая перетасовка предложений...
Не предложений, а словосочетаний. Вообще, если брать исходних и прогнать его через цепи маркова, то, по сути, получаются те же ключивики что и в исходном коде, только текст становится как бы уникальнее и бредовее. Если взять большой словарь и прогнать по нему какой-то текст, то исходный текст и конечный будут совсем разными и ключевики тоже будут разными.