Теги Карта сайта СЕО КОНКРЕТSitemap

SEO оптимизация, Интернет маркетинг, контекстная интернет реклама и бизнес.

ГЛАВНАЯ

Лимит сканирования, PageRank, хост и Googlebot

16.03.2010 | 17:40
Pубрика: Все заметки, Для веб-мастера и seo-оптимизатора, Интересные статьи и новости - читать, Новости Google, Статьи и переводы, Технологии SEO

Интервью Matt Cutts / Eric Enge. Сканирование и индексация сайтов

Eric Enge:

Давайте поговорим о концепции лимитов на сканирование. Мое понимание этой концепции заключается в том, что зашедший на сайт Googlebot заранее знает, сколько страниц ему нужно скачать сегодня, и покидает сайт после того как заберет эти страницы.

Matt Cutts:

Я попробую рассказать о вещах, которые нужно принимать во внимание.

Во первых, понятия лимита на сканирование не существует. Многие считают, что на каждом домене сканируется только определенное количество страниц, но робот-паук работает по другому.

Для нашего робота нет жесткого лимита. Можете считать, что количество забираемых им страниц примерно зависит от вашего PageRank.

Если у вас много внешних ссылок на главную страницу, то он ее безусловно скачает. Если главная страница ссылается на другие страницы сайта, они будут получать PageRank и бот тоже их заберет.

Но по мере углубления в структуру сайта PageRank страниц будет убывать. С другой стороны, страницы с низким PageRank вашего сайта соревнуются с большим количеством страниц с таким же либо более высоким PageRank.

Очень много страниц в Сети имеют очень маленький либо близкий к нулю PageRank .

Страницы, на которые имеется много ссылок, обнаруживаются и сканируются довольно быстро. Страницы с низким PageRank будут сканироваться не так часто.

Рассматривая понятие лимитов на сканирование, нужно понимать, что нет жестких ограничений для сканирующего бота, есть концепция «нагрузки на хост».

Нагрузка на хост определяется максимальным количеством подключений, которое конкретный веб-сервер может обслуживать одновременно. Представим, что ваш веб-сервер может обслуживать только одного бота. Это позволит нам забирать каждый раз по одной странице.

Это будет очень-очень низкая нагрузка на хост, по сравнению с такими сайтами как Facebook или Twitter, которые могут выдерживать очень высокую нагрузку на хост, потому что они обслуживают очень много одновременных подключений.

Ваш сайт может находиться на виртуальном хостинге совместно с кучей других сайтов на одном IP. Теоретически, вы можете столкнуться с ограничениями в сканировании нами вашего сайта.

Если мы можем забирать за раз с вашего сайта только две страницы, и сеанс сканирования длится заданный промежуток времени, то это задает верхнюю границу количества страниц, которое мы можем забрать с этого хоста.

Eric Enge:

Т.е. два основных фактора. Первый - это PageRank, влияющий
на определение количества страниц, которое нужно забрать с сайта. Но и
нагрузка на хост тоже влияет.

Matt Cutts:

Правильно. Для большинства сайтов определяющим является первый фактор, когда PageRank и другие данные определяют, насколько глубоко мы пойдем внутрь вашего сайта.

Однако, возможно что нагрузка на хост тоже повлияет. Это подводит нас к теме дублирующегося контента. Допустим, мы забрали с сайта три страницы и обнаружили, что они являются дубликатами.

Мы выкинем две страницы из трех и оставим только одну. Такой контент не выглядит слишком хорошим. Мы можем решить, что не стоит забирать слишком много страниц с такого сайта.

Если вы сталкиваетесь с ограничениями по нагрузке на хост, и мы можем забирать с вашего сайта только конечное количество страниц, тот факт, что у вас есть дублирующийся контент, страницы с которым мы отбрасываем, означает что вы не даете другим своим страницам с хорошим, уникальным контентом появиться в нашем поисковом индексе.

Eric Enge:

Классический совет, который мы всегда даем людям, что расплатой за дублирующийся контент является ухудшение сканирования сайта.

Matt Cutts:

Да. При наличии у вас определенного PageRank, мы готовы сканировать очень много с вашего сайта. Отбрасывание некоторых страниц означает бесцельное расходование ресурсов. И это может происходить в условиях ограничений по нагрузке на хост, когда мы не можем забирать слишком много страниц.

Расшифровка стенограммы интервью

Cканирование и индексация сайтов
ЧИТАТЬ » »

Потерянный ссылочный вес и дублированный контент
ЧИТАТЬ »»

Идентификатор сессий - Session Ids и дублированный контент
ЧИТАТЬ »»

Партнёрские программы, учёт ссылок и проблема дубликатов
ЧИТАТЬ »»

Многоаспектная навигация, тег canonical
ЧИТАТЬ »»

301 редирект и его влияние на PageRank
ЧИТАТЬ »»

302 редирект и Google
ЧИТАТЬ »»

Обзор тега canonical
ЧИТАТЬ »»

Файлы KML (для Google Earth и Google Maps)
ЧИТАТЬ »»

Определения типа контента
ЧИТАТЬ »»

PageRank Sculpting - накачка PageRank
ЧИТАТЬ »»

PDF файлы, JavaScript и другие, оставшиеся вопросы
ЧИТАТЬ »»

На первую страницу
ЧИТАТЬ »»

Метки: , , ,

Информационная статья - Лимит сканирования,  PageRank, хост и Googlebot Читайте также

Информационная статья - Лимит сканирования,  PageRank, хост и Googlebot Понравилась статья?

Подписаться на RSS фид »
Подписаться на обновления по e-mail »

Всего комментариев: (4)

1

Alex | 17.03.2010 | 07:24 | Ответить

Неплохое интервью. Даже не знал что от величины пейдранк зависит кол-во проиндексированных страниц.

2

webcat | 17.03.2010 | 12:50 | Ответить

я тоже не думала, что посещение ботом от этого завист

3

Svift | 17.03.2010 | 18:30 | Ответить

Ну, это собственно и не новость, уже лет, чтоб не соврать, пять назад было очевидно, что чем выше PR у главной старницы сайта (и соответственно и у разделов/страниц) тем интенсивней бот гугла жрёт сайт и тем больше он забирает в индекс чем сильнее страницы “сдобрены” этим самым ранком

4

CW | 23.03.2010 | 23:05 | Ответить

Забавно, я как раз то же самое интервью перевожу:)

RSS комментариев к этому посту | Trackback URI

Оставьте комментарий

Читайте, где Вам удобнее

в Яндекс.Ленте Google Reader Twitter! Follow!

Недвижимость в Германии
Категории Последнее Популярное

Актуальная статья

Полезность для общения и бизнеса : jabber технологии + пейджеры на сайт = бесплатный сервис для бизнеса и легкого приватного диалога.
Данный обзор написан для тех, кто пока не встал на сторону jabber сервисов и живет старыми понятиями «аська-квип».
Не будем вас разочаровывать: новые возможности, которые дают нам современные технологии выше и они работают более гибко, чем [...]

Читать дальше »

Интересные вебресурсы

Важные новости

Уважаемые друзья, случайно удалила все комментарии за июль. Приношу извинения

SEO
SEO

Последние комментарии

Самые комментируемые

ТОП комментаторы

Статистика

Rambler's Top100

SEO

© 2009, SEO-Konkret.ru - SEO оптимизация, Интернет маркетинг, контекстная реклама, интернет реклама и бизнес       Контакты
Спасибо WordPress.com :)

Вы читаете статью: «Лимит сканирования, PageRank, хост и Googlebot»