Перспективы поиска

Денис Ковалкин, «Вебпланета» 27.12.2010

Большая часть прогнозов о будущем поисковиков основываются на простых, как яйцо, предпосылках: основная задача поисковой системы – это поиск информации для пользователя, её развитие – это постоянное улучшение качества поиска и удобства для клиента. Ведь это же очевидно, правда?

Неправда. Любая крупная поисковая система – это не благотворительный фонд по борьбе со склерозом, а коммерческое предприятие. Её главная цель – получение прибыли в особо крупных размерах. И именно к ней она стремится, с поправкой на законы Паркинсона. Интересы простых пользователей при этом — дело второе, а то и десятое. Стоит помнить об этом, начиная любой разговор о будущем поиска.

Поиск в будущем времени

Для любого бизнеса верно правило: крупный клиент == желанный клиент. Как бы сторонники «веб-два-ноль» не размахивали своим «длинным хвостом», но долгосрочный заказ со многими нулями от крупной фирмы выглядит гораздо интереснее, чем «выпас» миллионов мелких клиентов. Вопрос лишь в том, что может предложить поисковик крупному бизнесу.

Как насчет поиска в будущем? Помните, как в фильме «Ночной дозор» герои лезут в поисковиик и нажимают на ссылку «Завтра»? Кому-то в корпорациях эта идея, очевидно, тоже нравится. В результате Google стала инвестором компании Recorded Future. Суть проекта — в ежедневном анализе актуальной информации с сайтов, блогов, форумов, аккаунтов Twitter и т.д. с целью вычленения связей между людьми, местами, и событиями, как в прошлом, так и в будущем. По словам Криса Альберга, исполнительного директора RF, во многих случаях действительно получается это будущее предсказывать.

Идея не нова. «Вебпланета» уже писала о сервисе Google Flu Trends, который, анализируя текущие поисковые запросы пользователей, вроде бы способен отслеживать положение дел с эпидемией гриппа, опережая официальную статистику. Может ли этот сервис отличать реальный грипп от «медийного» – другой вопрос.

Если идея Recorded Future доживёт до стадии продаж всем желающим, то аккаунты в этой поисковой системе будут разлетаться, как горячие пирожки, независимо от стоимости подписки. Впрочем, этот проект интересен не только бизнесу. Недаром со-инвестором Google в этом проекте стало ЦРУ.

Но пока RF осваивает инвестиции, Yahoo!Research уже предлагает всем желающим опробовать свой Time Explorer. В зависимости от направления поиска на шкале времени могут отображаться как даты самих публикаций, так и даты будущих событий, которые Time Explorer извлекает из текстов статей. Перемещаясь вдоль шкалы, можно просматривать материалы, относящиеся только к определенному отрезку времени; в качестве приятного бонуса система анализирует количество упоминаний мест и людей в текстах за указанный период, и даже строит связи между последними.

Сейчас Time Explorer оперирует лишь публикациями New York Times, но этого достаточно, чтобы оценить его удобство. Стоит отметить, что сам по себе он – лишь часть проекта Living Knowledge, нацеленного на улучшение поиска и управление знаниями. Финансируется проект, что любопытно, Еврокомиссией.

Шоу «За стеклом» в эпоху «веб-два-ноль»

Другая тема, интересная любому бизнесу — люди. Не абстрактные 6 миллиардов, но вполне конкретные категории: покупатели, работники, партнеры. В России рынок продажи людей с потрохами после Александра Второго-Освободителя так и не восстановился. А вот в США, к примеру, дело это поставлено на поток. За скромную сумму на www.ussearch.com или на www.peoplefinders.com можно узнать не только домашний адрес и телефон человека, но и его годовой доход, стоимость дома, участие в судебных процессах и множество другой интересной информации.

Но скупые строчки ведомственных баз данных выглядят бледно в сравнении с теми массивами информации, которые можно найти в Сети. Социальные сети и приложения для них, доски объявлений и форумы … дело даже не столько в том, что поисковый робот способен накопать здесь немало интересного. Все эти сервисы и сами готовы продать вас, был бы спрос. А спрос, меж тем, есть. Facebook недавно обвинил ряд разработчиков приложений в том, что те сливали компаниям-шпионам (по-английски это звучит невинно – data brokers) не только данные о поведении пользователей, но и их ID, позволяющие связать эти данные . Провинившиеся программисты были наказаны 6-месячным отлучением от Facebook.

Rapleaf (www.rapleaf.com) – одна из тех компаний, что сбивает с пути истинного непутевых разработчиков. В своем обращении на сайте она обещает бизнесменам — идеальную аудиторию для их товаров и услуг, а обычным людям – мир, отвечающий их запросам и нуждам; но на деле Rapleaf просто копит увесистое досье на вторых, а затем сливает его первым. Результат этой практики — солидная поисковая система, предназначенная для поиска по людям, с миллиардом e-mail – адресов в базе данных.

Wall Street Journal опубликовал интересное исследование, посвященное этой теме; и лейтмотив его можно свести к одной фразе: «Вы не представляете, как много знают о вас эти люди». Что интересно: до публикации Rapleaf, не стесняясь, тоже продавал всем желающим данные о пользователях вместе с их Facebook и MySpace ID, очевидно, приближая «дивный релевантный мир». Только привлеченное изданием внимание заставило их прекратить эту практику. Надолго ли, неизвестно.

Но что такое социальная сеть? Лишь фрагмент мозаики. Для полной картины стоит добавить к нему и нарытое поисковым роботом, и сохраненное в папках на почтовом сервисе. В этом плане у современных поисковых систем-порталов — огромное преимущество перед новыми игроками на рынке. И то, что Rapleaf размещает свой API на Google Code, уже не выглядит случайностью. Не превратится ли он со временем в очередной Google-сервис?

«Кто все эти люди?»

Отдельная тема – поиск по фотографиям, которые мы так легко доверяем Сети. Помнится, в начале 2000-х идея «умных камер», узнающих злоумышленников в толпе, была очень популярна. Натурные эксперименты показали преждевременность восторгов — слишком уж часто такие системы путали «террористов» и «обычных граждан». Но, уволенные в отставку с фронта борьбы с террором, эти системы нашли себя в мирной жизни.

К примеру, Face.com, предлагающий приложения, которые отыскивают на фото знакомое лицо. А потом можно и пометить найденное. Не беда, если система выдаст пару десятков посторонних снимков – скучающий веб-сёрфер придёт ей на помощь, отфильтровав ненужное и заботливо расставив тэги. Интересно, зачем ему это? Наверное, затем же, зачем легендарному Васе, царапающему гвоздём свое гордое имя на чем попало.

Гораздо интереснее, зачем это, например, «Яндексу», купившему Face.Com? Или Google, уже реализовавшему в Picasa такую же возможность? Не Васи ж Пупкина ради?

У заботливо размеченной базы с вашими фото найдется масса замечательных применений; например, в рекламе. Биллборд, отслеживающий лица людей, которые смотрят на него — это уже вчерашний день. Сегодня-завтра он начнет заносить в лог имена всех задержавших на нем взгляд, распознавать модели одежды и аксессуаров (www.like.com), а в будущем — и меняться в зависимости от интересов в профайлах зрителей. Ошибется – не беда, всё равно 99% рекламы обычно видят те, кому она совершенно неинтересна.

Хотя такой биллборд – удовольствие дорогое, гораздо проще заменить его армией ноутбуков. Ваш браузер давно уже стучит на вас, пора приставить к делу и веб-камеру. Например, предложив широкой общественности крайне полезную в общении программу распознавания пользовательских эмоций и расставления смайликов.

Думаете, это глупая шутка? Спецы из W3C вовсю работают над стандартом языка эмоциональной разметки EmotionML. Декларируемые области использования заставляют задуматься: речь идет не только о разметке текста, но и о программах, управляемых пользовательскими эмоциями. А разработчики, не дожидаясь окончательного стандарта, вовсю трудятся над приложениями, читающими эмоции. Главное – заставить вас никогда не выключать веб-камеру; а кому продать результаты слежки – найдется.

Социальный поиск

Пока гиганты поискового рынка решают вопрос, как бы всех нас монетизировать, вопросами улучшения поисковой выдачи занимаются, в основном, аутсайдеры.

Поисковик Blecco (www.blekko.com) реанимирует идею социального поиска. Волонтёры этого сервиса сортируют сайты в сети по тэгам-категориям, в зависимости от их содержания. Пользователь может ограничить область своего поиска: например, только сайты, связанные с темой здоровья, или только блоги. Можно и вовсе завести свою собственную подкатегорию, став одним из участников проекта.

Подобное ограничение в разы сокращает количество бестолковых ссылок в результате, но заодно отсекает и сайты, которые еще не были «взвешены и измерены». Впрочем, в перспективности такого направления есть определённые сомнения. Большинство пользующихся поисковиками потенциально ленивы; и вряд ли будут думать о каких-то тэгах, пока привычный Google (или «Яндекс») худо-бедно справляется с задачей.

Более жизнеспособным выглядит подход, выбранный Bing в сотрудничестве с Facebook. Пользователи будут получать в выдаче в первую очередь те сайты, которые отметили в Сети их друзья. Механизм отметок реализуется просто: кнопкой «Like», добавляемой к непосредственно к сайту. Вопрос лишь в том, «релевантны» ли наши «френды» нашим поисковым запросам?

Вопросы и ответы

В цепочке «вопрос – поиск нужной страницы – ответ» центральное звено часто можно убрать без потери качества, зато с экономией во времени. Это наглядно показал WolframAlpha (www.wolframalpha.com), породив целый ряд сервисов-последователей.

Например, Quora (www.quora.com), основанная бывшими сотрудниками Facebook в 2009 году. Изюминка сервиса – в википодобном сообществе, которое создает и редактирует ответы на всевозможные вопросы. В этом же и слабость – требуется время, прежде чем количество пар «вопрос-ответ» достигнет ощутимого количества. Пока что в ответ на многие вопросы, Quora.Com предлагает добавить ответы самому.

Другой подход выбрали создатели поисковика Swingly (www.swingly.com). Хотя его пользователи могут редактировать и оценивать ответы, сами пары «вопрос-ответ» вычленяются путем машинного анализа веб-страниц. Создатели сервиса хвастаются, что у них накоплено уже более 100 миллиардов таких пар (хотя поисковик еще на стадии бета-тестирования).

Известная поисковая система Ask.Com, начинавшая когда-то как сервис вопросов и ответов «Ask Jeeves», также отказывается от традиционного алгоритмического поиска, возвращаясь к изначальной парадигме «вопрос-ответ». Ее президент, Дуг Лидс, предельно откровенен в своем интервью: вопросы-и-ответы – именно та область, в которой можно не опасаться конкуренции и кражи идей со стороны китов традиционного поиска.

Действительно, Google поддерживал некоторое время свой Q&A-сервис (Google Answers), но по итогам эксплуатации решил от него избавиться, оставив возможность использовать его лишь в России и в Китае. Однако, что сложно скопировать – можно купить. В начале года Google приобрел сервис Aardvark. В отличие от перечисленных выше сервисов, Aardvark – социальная сеть, в которой вопросы передаются специалистам в данном вопросе … или просто людям со схожими вкусами. Каналы связи – интернет-мессенджеры, почта, твиттер.

Сама идея не нова, она уже апробировалась ранее и успешно проваливалась, но именно сейчас, с массовым распространением мобильных устройств, у нее появляется ощутимое преимущество перед другими Q&A-сервисами, традиционно ориентирующимися на настольный компьютер.

Вместо послесловия

Онлайн все больше проникает в обычную, оффлайновую жизнь, и поиск – вместе с ним. Обладатели смартфонов уже пробивают товары по штрих-кодам на Яндекс.Маркете и по фотографиям на Like.Com, а скоро смогут разыскивать лица случайных прохожих в социальных сетях. Рекламные щиты присматриваются к своим зрителям. Интерактивные карты предлагают узнать, где и чем сейчас занимаются друзья и знакомые.

Наш мир становится любопытным местом, где можно мгновенно получить ответ на любой вопрос – и невозможно сохранить что-нибудь в тайне. И хотя до «полного Оруэлла» ещё далеко, но закон перехода количества в качество говорит, что мы на верном пути.