Семантическая Паутина — за и против

Автор: Денис Ковалкин

Написано для Hostinfo.Ru, ссылка на публикацию здесь.

Представим, что вы задумались об отпуске. Лето уже близко, пора определяться с планами. Хорошо бы, конечно, к морю… Допустим, в Турцию. Вы открываете программу-агент, вводите запрос, уточняя попутно желательное количество звездочек отеля, и запускаете поиск. Программа определяет период вашего отпуска, связавшись со службой «Отдыхаем вместе», где у вас зарегистрирован аккаунт. Поскольку курорт вы не уточнили, агент просматривает все отели указанной звездности в Турции, выбирая из общего списка те, отзывы о которых лежат в диапазоне от «хорошо» до «отлично». Длинный список? Программа сокращает его, оставляя лишь «отличные» отели. Затем она, заглянув еще раз на «Отдыхаем вместе», уточняет, не собирается ли кто-нибудь из ваших знакомых по сервису в это самое время туда же. Затем ищет названия компаний, предлагающих туры в указанные места, и дополняет результат доступными на их сайтах ценами. Готово. Результат выводится на экран. Желаете сохранить запрос, уточнить запрос, сделать заказ?


Фантастика? Сторонники идеи семантической Паутины так не думают. Согласно их убеждениям, трансформация текущей Всемирной паутины в семантическую превратит ее из информационного болота мировых масштабов в глобальную и всеобъемлющую базу данных, идеально подходящую для поиска и последующей обработки любой информации. В чем заключается суть этой трансформации? Большинство данных в Сети не имеет какой-либо семантической (то есть смысловой) разметки, в лучшем случае — логическую (заголовок — подзаголовок — параграф). Конечно, есть еще метаданные, но они в существующем формате неэффективны. Мета-теги desription и keywords относятся ко всей странице целиком, часто используются для поискового спама и вследствие этого почти не учитываются при анализе поисковыми системами. Последние предпочитают использовать частотный и лексический анализ содержимого страницы; насколько такой подход эффективен, представляет себе каждый, регулярно пользующийся услугами поисковых систем. Подход семантической Паутины базируется на глобальном использовании метаданных. Во-первых, любая информация снабжается ярлычком на специальном языке описания данных, обозначающим ее как объект определенного класса, свойства и связи которого с прочими классами описаны заранее. Во-вторых, страница содержит ссылки на соответствующие источники с описаниями классов объектов, их свойств и связей (онтологии). Например, текст рецепта шашлыка, который вы выкладываете на свою страницу, будет снабжен пометкой «является рецептом шашлыка», а онтология кулинарных объектов, на которую ссылается страница, будет содержать помимо описания класса «шашлык» классы «баранина», «маринад» и «кавказская кухня», а также описание связей между ними.
Другой базовой составляющей семантической Паутины является более широкое использование универсальных идентификаторов ресурсов (URI). Если в настоящее время URI является по большей части синонимом URL-адреса какой-либо страницы, то в рамках рассматриваемой идеи с помощью URI можно будет ссылаться на любые объекты: людей, города, организации и так далее. В сумме все указанные нововведения сделают любые данные, размещенные в Сети, пригодными для удобного машинного поиска и анализа, позволяя реализовать не только описанную в начале статьи возможность, но и множество других полезных вещей. В частности, глобальную энциклопедию, единую социальную сеть, в которую сольются нынешние социальные сервисы, и многое другое.

 
Семантическая Паутина в сравнении с предшественницами

Историю семантической Паутины принято отсчитывать от мая 2001 года, когда Тим Бернерс-Ли (один из создателей Паутины всемирной) опубликовал в Scientific American интереснейшую статью, содержащую подробное описание самой идеи, направлений ее реализации и ожидаемых от ее внедрения результатов. Впрочем, идея была разработана Бернерсом-Ли еще в 1999 году. Концепция семантической Паутины была принята консорциумом W3, который в настоящее время участвует в ее внедрении. Им, в частности, были разработаны и приняты язык описания данных RDF (1999 год), язык создания онтологий OWL (2004 год) и язык запросов к данным в формате RDF SPARQL (2006 год). Несмотря на немалый объем проделанной работы по разработке стандартов и средств, до полноценного внедрения семантической Паутине еще далеко, хотя некоторые ее частные приложения, например RSS версии 1.0, нашли широкое применение в Сети. PingTheSemanticWeb (служба, ведущая подсчет ресурсов семантической Паутины) выдает в текущих результатах чуть менее миллиона существующих документов в формате RDF, что, конечно, капля в море по сравнению с количеством страниц Всемирной паутины.
Возвращаясь к приведенному в начале статьи примеру, необходимо сказать, что описанная в нем ситуация станет возможна только при условии широкого распространения в Сети семантических веб-сервисов; сервисов, не просто предоставляющих различного рода услуги, но и имеющих их семантическое описание, а также сведения об области понятий, которыми они оперируют. В настоящее время количество этих сервисов можно в буквальном смысле пересчитать по пальцам. Будет ли их число в ближайшее время расти или семантическая Паутина так и останется красивой идеей, пока предсказать невозможно. Сеть открыта для простых полезных инноваций, одной из которых стали, например, RSS-потоки, в кратчайшее время распространившиеся буквально повсюду. Если бы концепция семантической Паутины допускала дробление на независимые, но самоценные технологии, то ее внедрение не заставило бы себя долго ждать; однако ее составляющие эффективны только в совокупности, концепция сложна для освоения, а результаты внедрения хотя и кажутся заманчивыми, но сроки их получения весьма и весьма неопределенны. К тому же нет гарантий, что минусы от создания семантической Паутины не перевесят плюсы. А выглядят ожидаемые минусы достаточно серьезно.

Покушение на приватность. В полном соответствии с известным высказыванием главный недостаток семантической Паутины является прямым продолжением ее основных достоинств: эффективного поиска и возможности делать выводы на основе семантически размеченных данных. Поиск в новой среде позволит без особых проблем собрать воедино информацию о человеке, организации, фирме из всех доступных источников, используя уникальные идентификаторы, такие как имя, адрес электронной почты или ИНН. Такая агрегация сама по себе может сообщить интересующемуся любопытные факты, не представленные напрямую ни в одной из баз данных. Возможность логических выводов на основе размеченной информации, предлагаемая инструментарием семантической Паутины, поможет автоматизировать этот процесс, обеспечивая быстрый и эффективный сбор информации о конкретном субъекте. Что это дает в итоге? Практически абсолютную информационную прозрачность Сети, когда такие понятия, как «приватность» и «личная тайна», разом отходят в разряд анахронизмов. Семантическая Паутина приобретает черты Большого Брата, который внимательно наблюдает за вами; и любой человек, не только сотрудник спецслужб, может получить доступ к его «глазам», пожелай он узнать о вас побольше. Засекречивание отдельных данных вряд ли решит эту проблему: как известно, 90 процентов информации разведка получает из открытых источников. Кстати, именно шпионы активно спонсируют проект семантической Паутины. Такие компании, как Radar Networks и Metaweb Technologies, активно участвующие в работе над семантической Паутиной, по некоторым данным, связаны с ЦРУ и АНБ и частично финансируются этими организациями.
Стоит отметить, что проблема информационной безопасности в семантической Паутине находится в поле зрения разработчиков этой идеи — такие проекты, как SAML и P3P, призваны дать пользователям Паутины надежный инструмент для обеспечения безопасности в семантическую эпоху. Насколько эффективны окажутся эти разработки, пока судить рано.
Ловушка выбора. Как будет выглядеть процесс принятия решения, если семантическая Паутина все же воплотится в реальность? Сейчас мы перелопачиваем массу информации в Сети, отыскивая нужные крупицы, листаем справочники, обзваниваем друзей и знакомых, сами подбираем возможные варианты и сами же останавливаемся на одном из них. Сторонники семантической Паутины обещают, что в эпоху ее расцвета за человеком останется лишь конечный выбор, а все остальное за нас сделают интеллектуальные программы-агенты, лучше нас самих способные подобрать для нас идеальные варианты. Это несомненное достоинство имеет и обратную сторону — сужение пространства выбора до нескольких вариантов, предлагаемых нам программой. Такая ситуация — лакомый кусочек для любого, кто пожелает человеком управлять. Слегка скорректируем логику подбора, выделив желательные для нас варианты, и человек безо всякого насилия будет делать то, что нам хочется. Кому это может понадобиться? Во-первых, компаниям, которые хотят привлечь клиентов. Небольшие изменения в программе-агенте или семантическом веб-сервисе, позволяющие сдвинуть приоритеты в пользу определенной фирмы — вот самая эффективная реклама века семантической Паутины! Рано или поздно аналогичная мысль дойдет и до государственного аппарата. Что ему захочется сделать? Стимулировать граждан на поддержку отечественного производителя? Поднять повыше в результатах поиска патриотический опус? Одно можно сказать с определенностью: управление вариантами слишком удобный инструмент для управления людьми, чтобы остаться невостребованным.
Но даже и без подобного управления извне ситуация, когда на долю человека достается лишь окончательный выбор, выглядит настораживающе. Конечно, сторонники идеи семантической Паутины обещают непременную возможность пошагово проследить движение агента по Сети и узнать причины того или иного выбора, но кому это понадобится, если вот они, варианты, уже на экране. Хочешь — по цене их сортируй, хочешь — по расстоянию, и не надо лишний раз думать, достаточно просто щелкнуть мышкой первую позицию в списке. Раз за разом выбирая из нескольких предложений, подобранных программой-агентом, человек рискует потерять способность самостоятельно собирать информацию, планировать варианты и оценивать их. Средство, задумывавшееся как мощный рычаг, рискует превратиться для многих в костыль, без которого нельзя ступить и шагу.
Машинный язык как новое эсперанто. Мы не часто об этом задумываемся, но язык, на котором мы разговариваем, является основой не только для описания мира, в котором мы обитаем, но и для его осмысления. Меняется язык — ощутимо меняется и картина мира думающего на этом языке человека, даром что все наши языки до сих создавались людьми и для людей. Создатели семантической Паутины предлагают нам новый язык (совокупность языков), созданный, и они этого не скрывают, для машин. Они с энтузиазмом рассуждают о его универсальности и дополняемости, о том, что практически любой элемент мира можно описать на этом простом и понятном языке. Бернерс-Ли в своей статье пишет о тех возможностях, которые обретают группы разработчиков, получая в руки универсальный инструмент для изложения концепций своих разработок. Разумеется, даже если семантическая Паутина займет место WWW, сравнительно небольшой процент людей будет знать RDF, OWL, SPARQL и те языки, которые придут им на смену, как немногие сейчас знают HTML и XML. И уж тем более вряд ли кому-то придет в голову разговаривать на одном из этих языков. Проблема, однако, в том, что HTML не претендовал на роль языка описания мира, в отличие от OWL; а если проект семантической Паутины увенчается успехом, то именно эта картина мира станет основой для работы программ-агентов, экспертных систем и других интеллектуальных помощников, с которыми будут взаимодействовать люди. И именно на базе описания мира в формате семантической Паутины будут делаться оценки и приниматься решения. Возможные последствия этого для общества сложно оценить, не впадая в излишнее фантазирование, но сомневаться в серьезности этих последствий — опасная беспечность.