понедельник, 14 декабря 2009 г.

Поиск. Google. Яндекс.

Все наверняка задумывались в чём секрет релевантности Гугла.
Вся эта морфология, ранжирование и индексирование.

Мне когда-то казалось, что самое важное - это правильно отпарсить текст и ссылки посчитать. Посмотреть что в заголовке, количество слов, формулы рассчитать.

А ведь на самом деле всё может быть проще и интереснее.
Ведь можно основываться на поведении пользователя и опираться на статистику.

Пожалуй, лучше на примерах:
  1. Тематики запросов.
    Почему по запросу "tomato" Гугль мне первым подсовывает страницу о разработке и IT? Потому что, чуть более чем все мои запросы на эту тему. Я - веб-разработчик и вряд ли буду искать описание помидора.

    Теперь я в категории "веб-разработка" и результаты поиска соответствующие.

  2. Уточнение запросов
    Если на первой-второй странице человек не находит то, что искал (например, ссылку на википедию), то он уточняет запрос. Это также весомый аргумент, чтобы изучить что же ожидалось увидеть.

  3. Статистика кликов
    А теперь добавим к этому статистику кликов по результатам и количество возвратов к выдаче. Итак, уже можно поднимать какие-то строчки выше - люди в данной категории находят нужную информацию именно там.

  4. Внешние источники статистики
    Вы замечали кнопки "Share this"?
    Большинство этих кнопок замеряют время, которое прошло с момента прихода на страницу и до момента клика на "Добавить в закладки/Посоветовать другу". Полученные данные отправляются на нужные сервера.

    Можно считать, что если прошло более 30 секунд (вы читали) и нажата кнопка (материал полезен), то материал действительно полезен.

  5. Важные куски текста
    К примеру, на странице много текста. Ключевые слова часто повторяются и толком не понять спам это или полезный текст.

    Хм, а что если поставить надстройку над браузером и собирать инфу о выделении текста и копировании? Вы когда-нибудь выделяли баннер или копировали спам-текст? Только ради прикола, согласитесь :-)
Все действия пользователя намного важнее количества текста, тегов и прочих хреней, известных лишь разработчикам. Поведение человека относительно запроса рассказывает намного больше, чем формулы.

Можно набрать в отдел поиска 100 супер-крутых разработчиков и получить хороший индекс. А можно 10 супер-крутых социологов и психоаналитиков и получить - релевантную выдачу.

Комментариев нет: