Вся эта морфология, ранжирование и индексирование.
Мне когда-то казалось, что самое важное - это правильно отпарсить текст и ссылки посчитать. Посмотреть что в заголовке, количество слов, формулы рассчитать.
А ведь на самом деле всё может быть проще и интереснее.
Ведь можно основываться на поведении пользователя и опираться на статистику.
Пожалуй, лучше на примерах:
- Тематики запросов.
Почему по запросу "tomato" Гугль мне первым подсовывает страницу о разработке и IT? Потому что, чуть более чем все мои запросы на эту тему. Я - веб-разработчик и вряд ли буду искать описание помидора.
Теперь я в категории "веб-разработка" и результаты поиска соответствующие.
- Уточнение запросов
Если на первой-второй странице человек не находит то, что искал (например, ссылку на википедию), то он уточняет запрос. Это также весомый аргумент, чтобы изучить что же ожидалось увидеть.
- Статистика кликов
А теперь добавим к этому статистику кликов по результатам и количество возвратов к выдаче. Итак, уже можно поднимать какие-то строчки выше - люди в данной категории находят нужную информацию именно там.
- Внешние источники статистики
Вы замечали кнопки "Share this"?
Большинство этих кнопок замеряют время, которое прошло с момента прихода на страницу и до момента клика на "Добавить в закладки/Посоветовать другу". Полученные данные отправляются на нужные сервера.
Можно считать, что если прошло более 30 секунд (вы читали) и нажата кнопка (материал полезен), то материал действительно полезен.
- Важные куски текста
К примеру, на странице много текста. Ключевые слова часто повторяются и толком не понять спам это или полезный текст.
Хм, а что если поставить надстройку над браузером и собирать инфу о выделении текста и копировании? Вы когда-нибудь выделяли баннер или копировали спам-текст? Только ради прикола, согласитесь :-)
Можно набрать в отдел поиска 100 супер-крутых разработчиков и получить хороший индекс. А можно 10 супер-крутых социологов и психоаналитиков и получить - релевантную выдачу.
Комментариев нет:
Отправить комментарий