01.04.2006
Плохо, когда по вашему запросу не найдено ответа. Ничем не лучше и другая крайность — чересчур большой список результатов. Такая ситуация вполне реальна, например, при поиске по какой-нибудь популярной теме, число ресурсов по которой очень велико. Попробуйте набрать в Google запрос в духе «Windows», «Linux», имя популярной персоны или что-нибудь из вечернего выпуска новостей (желательно с привкусом сенсационности). Машина исправно выдаст на гора десяток-другой тысяч (а то и миллионов) записей. С одной стороны, непомерное количество ссылок может быть признаком неудачно сформулированного запроса, который просто нужно уточнить. Однако это не всегда можно сделать сразу, особенно если предмет поиска для вас новинка. Так что проблема найти хоть что-то плавно переходит в свою не менее неприятную противоположность — информационную перегрузку. Один из способов борьбы с этой напастью — кластеризация.
Кластеризация
Нельзя сказать, что подобная проблема появилась только сейчас. Вопросы упорядочивания больших и очень больших массивов информации благополучно изучаются десятилетиями, разработаны эффективные методы классификации таких массивов данных. Однако, как правило, это достаточно сложные и дорогостоящие решения, зачастую требующие участия человека-специалиста. Кластеризация за счет небольшой потери в общем качестве существенно удешевляет построение таких классификаций. Таким образом, технологии продвинутой обработки данных наконец-то пошли в массы. Если давать определение понятию «кластеризация», то, наверное, это организация массива документов в тематические группы. От других способов классификации она отличается в первую очередь полной автоматизацией. Кроме того, кластеризация не проводится заранее, тематические группы выделяются уже при отработке поступившего в систему поискового запроса. Кластерный интернет-поисковик в общем виде работает следующим образом. После нахождения массива страниц, соответствующих вашему запросу, система анализирует их содержимое и выделяет ключевые слова, которые встречаются на них вместе с терминами из вашего запроса. В результате формируются подмножества-кластеры страниц, с большой долей вероятности связанных тематически. «Чистых» кластерных поисковиков, мягко говоря, немного. Поисковая машина Ask.com — это старый добрый AskJeeves под новой вывеской, окончательно пересевший на технологии и базы первого крупного кластерного интернет-поисковика Teoma.
История: кластерный поисковик Teoma
Поисковик Teoma («эксперт») первоначально был вполне самостоятельным проектом, разработанным на базе известного IBM’овского алгоритма HITS. О серьезности подхода разработчиков Teoma к делу говорит тот факт, что данный поисковик работал по самостоятельно собираемой индексной базе, которая благополучно входила в число крупнейших современных сетевых поисковых баз. Однако главной изюминкой Teoma была даже не уникальная база данных, а примененный механизм сортировки результатов поиска, основанный на кластеризации. Для обработки веб-страниц Teoma использовал наработки так называемой «теории сообществ». Весь массив страниц на основе анализа набора встречающихся на них ключевых слов автоматически разделялся на тематические подгруппы-кластеры. Далее начиналось самое интересное. При сортировке списка найденных по запросу ссылок для оценки релевантности результатов и, соответственно, позиции определенной ссылки в этом списке использовался хорошо знакомый по тому же Google алгоритм, учитывавший популярность ресурса и количество ссылок на него с других сайтов. Однако если другие поисковики учитывали все такие ссылки, присутствующие в индексной базе, Teoma рассматривал только ссылки, ведущие на рассматриваемую страницу с ресурсов, относящихся к одному тематическому кластеру. Это значит, что такая оценка становилась, так сказать, более квалифицированной. Действительно, при вдумчивом поиске ссылка с близкого по тематике ресурса по определению должна быть более весомой, поскольку владельцы такого проекта уже определенным образом оценили внешний ресурс, поставив у себя такую ссылку. Кроме улучшения качества поиска, кластеры дали Teoma возможность реализовать некоторые дополнительные сервисы. В 2001 году поисковик Teoma был приобретен компанией AskJeeves, которая использовала полученные технологии для совершенствования собственной поисковой машины. Несколько лет поисковики Teoma и AskJeeves работали параллельно. Сравнительно недавно Teoma приказал долго жить, а проекты окончательно слились под вывеской Ask.com.
Современность: поисковик Ask.com
Как мы теперь уже знаем, Ask.com основан на приобретенных кластерных технологиях и использует базу данных Teoma. Давайте подробнее познакомимся с этим ресурсом и посмотрим, что новенького нам предлагают его владельцы.
На стартовой странице Ask.com, кроме собственно поля поискового запроса, находится панель Search Tools. С ее помощью можно как отправить запрос к различным базам данных (веб, изображения, новости, локальный поиск, словари, фильмы), так и воспользоваться расширенным поиском, а также различными конвертерами. Всего на этой панели находятся ссылки на добрых два десятка инструментов. Содержание разделов Advanced Search и Preferences вполне стандартно. В режиме расширенного поиска можно составить сложный запрос с использованием логических операторов. Среди других опций — фильтр ключевых слов, ограничение по домену или сайту, поиск в заголовках и ссылках, поиск документов на определенном языке. К сожалению, русского среди поддерживаемых языков пока нет, и для нас это главный недостаток данного поисковика.
Давайте перейдем к десерту — запустим поиск по какому-нибудь широкому запросу и посмотрим, чем же Ask.com собирается нас удивить. Страница результатов поиска состоит из трех разделов: собственно списка ссылок и двух дополнительных разделов, отображаемых в виде единой колонки справа от общего списка. Как и у предка Ask.com — поисковика Teoma, рейтинг страницы определяется путем обработки ссылок, ведущих на нее с других сайтов, однако Ask.com учитывает только ссылки с ресурсов, тематически соответствующих запросу, а не со всех проиндексированных страниц базы. Раздел Narrow Your Search работает на уточнение запроса. Здесь кластерная технология проявляется в полной красе: в этом разделе выводятся ключевые слова, которые встречаются в найденных в кластере страницах вместе с ключевыми словами вашего запроса. Щелкая по таким ссылкам, вы переходите к поиску в более узком подмножестве, быстро отсекая ненужные ссылки.
В принципе, уточнить свой запрос можно и на обычном поисковике, но вся соль кластерного Ask.com состоит как раз в том, что он сам предлагает вам варианты уточнения запроса. Раздел Expand Your Search также вовсю эксплуатирует результаты кластеризации. Только здесь выводятся ссылки на более широкие понятия, которые удалось автоматически выделить на основе анализа вашего запроса. Именно в этом разделе реально удается быстро выловить специализированные веб-каталоги и порталы по интересующей вас тематике. Не секрет, что такие материалы могут быть поистине бесценным ресурсом для дальнейшей работы. Рекламные ссылки в результатах поиска четко отделены от общих результатов. Для каждой найденной ссылки, кроме краткого текстового фрагмента содержимого страницы, предлагаются инструменты доступа к кэшированной версии файла, а также доступ к просмотру миниатюры найденного сайта, для чего служит кнопочка с изображением бинокля. Как и на ряде других современных поисковиков, на Ask.com можно завести свой персональный аккаунт, с помощью которого можно будет построить собственную удобную рабочую среду, сохранять результаты поисков и производить другие операции. Ask.com также предлагает собственную поисковую панель для браузера и инструмент для поиска по своему локальному компьютеру. Характеристика этих инструментов уже публиковалась на страницах КГ в серии обзоров продуктов для поиска по локальному компьютеру.
Преимущества кластерных технологий в полной мере проявляются при поиске по широким запросам. Поскольку варианты уточнения запроса предлагаются автоматически, шансы быстро выйти на нужные результаты гораздо выше, чем при работе с традиционными поисковиками. Есть здесь еще один приятный бонус — возможность отследить ассоциативные связи между различными темами. Технологии кластерного поиска в настоящее время широко применяются разработчиками метапоисковых машин. Причем если пионеры из команды Teoma/Ask.com, внедряя кластерные технологии, в общем-то, немного поскромничали, сделав упор на строгость поиска, то их коллеги, поддерживающие метапоисковики, пошли немного дальше. Именно таким метапоисковым кластерным ресурсам будет посвящен наш следующий обзор.
|