Журнал «Компьютерра» № 11 от 21 марта 2006 года
Журнал «Компьютерра» № 11 от 21 марта 2006 года читать книгу онлайн
Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала
«КТ»: Просто немного странно. Они же к движку Google серьезно относились, даже морфологию русскую прикрутили.
Сегалович: О, тут как раз ничего странного нет. Алексей Сокирко, который делал русскую морфологию в Mail.ru для движка Google, теперь работает у нас.
«КТ»: А насколько качество поиска коррелирует с популярностью поискового сервиса?
Себрант: Ни насколько.
Волож: Да нет, если наш поиск долго будет хуже гугловского или рамблеровского, то люди начнут уходить.
Себрант: Но не наоборот. Если предположить, что гугловский поиск будет на два процента лучше, то… Во-первых, что значат эти два процента? Во-вторых, что значит «лучше»?
Волож: Неизвестно, как устроена эта материя. Почему пользователи приходят туда, а не сюда – никто не знает.
Сегалович: Ну нет, я знаю.
Волож: У тебя теории. У всех свои гипотезы. Я вот считаю, что просто не надо вредить. Надо стараться делать хорошо.
Сегалович: В конце 2004 года у нас был небольшой кризис, из которого мы вышли, и в течение всего 2005 года последовательно улучшали робота. Робот у нас очень приличный. По скорости занесения в базу мы опережаем конкурентов от нескольких часов до суток.
«КТ»: А в среднем прямое занесение в базу сколько времени занимает? Сколько времени проходит от момента, когда веб-мастер сообщает вам URL своего ресурса, до начала индексации?
Сегалович: Прямое занесение, то есть механизм «Добавить URL», играет не очень большую роль. А вот если на вас сослались из какого-нибудь интересного места, это дело, скажем, нескольких часов.
«КТ»: А почему при обновлении индекса из «Яндекса» частенько пропадают сайты?
Сегалович: Это стандартная беда всех веб-мастеров и всех роботов…
«КТ»: Но ругаются-то обычно именно на «Яндекс».
Себрант: Потому что когда перестает приходить трафик с «Яндекса» – это заметно, а если, допустим, с Google – то не очень.
Сегалович: Это, конечно, тоже играет роль. Но дело еще и в том, что у нас база обновляется очень часто, трижды в неделю. И если какой-то сайт почему-то не ответил, мы его сразу же убираем. А у того же Google месячный период обхода плюс быстрый робот, который обслуживает далеко не всех. И если уж я попал в Google со своей страничкой, то так в нем и живу. А «Яндекс» может меня выкинуть, потому что сайт в тот момент, когда ткнулся робот, лежал. И всё. На три дня меня в базе нет. То есть сама наша живость – это, безусловно, плюс, но у нее есть и неприятный побочный эффект.
Себрант: Нужно учесть, что когда мы случайно выкинули какой-то сайт, качество ответа практически не изменилось.
Волож: Зато увеличилась живость всей базы.
«КТ»: Веб-мастера жалко.
Себрант: Жалко. Но одним из проявлений кризиса, о котором говорит Илья, были мертвые ссылки в первой десятке выдачи. Люди переходили по ссылке, а ничего не открывалось. И это было страшно раздражающим фактором.
Волож: Не будет пользователей, веб-мастерам еще хуже станет со временем.
– У нас есть скрипт, собирающий и сравнивающий ответы поисковых систем по редким запросам, – поясняет Илья Сегалович, – и мы постоянно себя измеряем. Так вот, моя теория, в которую Аркаша и Андрей не верят, говорит, что рост популярности «Яндекса» коррелирует с состоянием базы. Не 87 процентов стала чистота, а 92 процента. Не 91 процент небитых ссылок, а 94, и так далее.
– Под «не верю» нужно понимать, что я не верю в абсолютизацию базы, – поправляет Себрант.
Перенос фокуса на базу позволяет нам вытащить домашнюю заготовку и спросить, как «Яндекс» относится к метапоисковым машинам, использующим для формирования результатов в том числе и выдачу «Яндекса».
– Выдачу у нас, кстати, можно купить, – замечает Волож.
Сегалович к паразитизму относится плохо, и в перспективность такого подхода – независимо от его этичности – в принципе не слишком верит. Портальная поисковая система при обработке запроса анализирует его, учитывая историю предыдущих запросов пользователя, историю кликов и переходов. А у метапоисковиков данных одновременно с двух концов цепочки (со стороны пользователей и со стороны веб-сайтов) нет и быть не может. Даже поисковые машины без портала – и те находятся в невыгодном положении.
– Все такие искалки умерли. Fast умер и был продан Yahoo через вторые руки (часть разработчиков осталась в Норвегии, а часть перешла в Yahoo и сделала поисковый движок для почты). Бизнес-идея компании Inktomi, полагавшей, что сможет разрабатывать поисковый механизм, продавать его порталам и жить на вырученные деньги, не сработала. Потому что нельзя жить без толстого портала с толстым слоем пользователей и информацией об этих пользователях. Потому что это, черт возьми, та самая обратная связь. Логика развития поисковых систем и порталов такова, что толстый портал с пользователями и хорошим поиском – это законченная модель, которую очень трудно разрезать. Нельзя сделать поиск отдельно.
Наши собеседники согласны с тем, что появление новых игроков на рынке поиска маловероятно. Эпоха накопления первоначального капитала завершилась, и сейчас хорошему поиску необходимо множество разных источников информации, которых у нового движка не может быть по определению. И если нишевые поисковые движки вполне могут появиться, то названия всех важных поисковиков, скажем так, общего назначения мы уже знаем. Скорее всего.
– Но Google ведь тоже пришел на практически поделенный рынок, – задумчиво говорит Сегалович.
По поводу успеха Google у Сегаловича есть теория.
– Считается, – говорит Илья, – что успех Google базируется на PageRank, новаторском алгоритме который придумали два студента в гараже. Однако ничто из этого не является правдой. Первое: опубликованный вариант PageRank не имеет почти никакого отношения к тому, что на самом деле работает в Google. Новизна его тоже под вопросом. По большому счету, все это уже было опубликовано, но в параллельных областях. И самое главное, PageRank не предоставлял никакого конкурентного преимущества, потому что то же самое практически сразу было реализовано во всех остальных поисковых системах.
А что сработало на Google? Например, с 1999 по 2003 год – как минимум четыре года – Google был единственной мировой искалкой, которая выдавала сниппеты, что повышает информативность выдачи на 30 процентов. Мы это тоже делали, но в России. Такая, казалось бы, мелочь. Технологически – совсем не сложная задача. У меня в 2000 году это было тестовым заданием при приеме на работу. Тем не менее четыре года сниппеты выдавал только Google. Почему остальные порталы это не реализовали? Не знаю.
– В Yahoo это теперь называется search lessons. Типа, «что мы делали неправильно с 2000 по 2003 год», – улыбается Волож.
Снова Волож.
– Мы занимаемся настольными онлайновыми сервисами для русскоязычной аудитории. Все слова в данной фразе ключевые. Наши приложения, конечно, могут иметь некоторые расширения, но мы не будем разрабатывать мобильные (специально спроектированные исключительно под мобильные устройства) или «диванные» (как правило, не требующие интерактивности) сервисы. Онлайновые – это значит, что «Яндекс.Офис» мы не пишем. Третья часть – это очень важный момент. Мы занимаемся сервисами, потому что считаем, что главное в Интернете не контент, а услуги.
– То есть у нас два главных фокуса, – говорит Илья Сегалович. – Первый – это русскоязычные пользователи. А второй – информационные сервисы. В информационном секторе наши планы связаны с созданием сервисов, которых у русского пользователя еще нет. Что касается коммуникационных сервисов, то мы в этом году будем заниматься переосмыслением. Не думаю, что мы изобретем что-то совершенно новое. Но попытаемся оценить, что есть у нас, что есть у конкурентов, – и сделать какие-то выводы.