PDF-файлы могут выйти в ТОП, обогнав HTML-страницы

(Ответов: 2, Просмотров: 204)
  1. Гуру
    • Регистрация: 11.05.2011
    • Сообщений: 2,354
    • Репутация: 390
    Роботы поисковых систем нередко обрабатывают PDF-файлы, электронные таблицы и презентации. Новая публикация в официальном блоге Google рассказывает о том, как проходит индексация таких страниц.

    Как известно, и Google это подтверждает, поисковая система умеет индексировать текст из документов PDF, написанный на любом языке. Основное условие при этом - чтобы текст не был зашифрован или сам файл не был защищен паролем. По заявлению Google, текст может извлекаться с помощью OCR алгоритмов, даже в случаях, когда он представлен в виде изображения. Примечательно, что изображения в PDF-файлах не индексируются. Также стоит отметить, что ссылки в PDF-файлах обрабатываются таким же образом, что и ссылки в HTML-коде.

    И главное заявление Google: HTML-файлы не имеют никаких преимуществ перед PDF-файлами в глазах поисковых алгоритмов, то есть PDF может оказаться в ТОПе выдачи, обогнав страницы с HTML-кодом. Главное, чтобы файл содержал контент высокого качества и чтобы на него вели ссылки с других ресурсов.

    Google отмечает, что запретить к индексации PDF-файлы можно с помощью X-Robots-Tag: noindex в заголовке HTTP.
    При обработке PDF-документов в результатах поиска используются метаданные title в файле и текст анкоров тех ссылок, которые ведут на PDF. Чтобы сообщить поисковой системе о правильном названии документа, рекомендуется обновить оба элемента.
    • 0
  2. Гуру Аватар для iavtomoto
    • Регистрация: 16.04.2011
    • Сообщений: 658
    • Репутация: 151
    что то бредом попахивает, зачем качать пдф весом в 30мб если нужен всего лишь абзац текста..
    • 0
  3. Гуру Аватар для dimok
    • Регистрация: 10.08.2009
    • Сообщений: 1,605
    • Репутация: 143
    • Webmoney BL: ?
    а качать вроде и не надо
    Ротабан - баннерная реклама
    Ротапост - платные посты и постовые
    • 0

Похожие темы

Темы Раздел Ответов Последний пост
Фильтры Google и как из-под них выйти
Обучающие статьи 14 23.03.2012 06:17
Уникальность текстов или как выйти из под АГС?
Поисковые системы 11 19.03.2011 15:03
Влияние правильности HTML кода страницы на работу поисковых систем
Дайджест блогосферы 0 05.12.2010 16:49
Создаем шаблон для WordPress. Шаг 3: создание html-страницы
Дайджест блогосферы 1 24.09.2010 18:10
Как выйти в топ?
Дайджест блогосферы 0 12.06.2010 00:01

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры