Содержание статьи
Web: вступление
Совсем недавно новостные агентства облетела новость, что IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.
В общем-то, многие эксперты сомневаются, что и Web 2.0 в действительности существует, подразумевая эфемерность и абсурдность самого явления нумерации Сети. Так же критично они посматривают и в сторону «третьей версии неизвестного продукта». Многие считают, что улучшение качества поиска - лишь небольшой элемент общего технологического прогресса, достойный максимум версии 2.1. Мол, когда научатся распознавать образы, человеческую речь и построят более-менее вменяемый ИИ, тогда и поговорим о «третьем Вебе».
Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь
Web: классификация версий
Когда мы говорим о Web, то в первую очередь подразумеваем контент. Скачать рефератик или новый софт из гигантской всепланетной свалки и заплатить за это утомлением глаз баннерной рекламой – это концепция того, что сейчас можно назвать Web 1.0. Пользователь выступает пассивным потребителем информации, которую создают 2-10 % активных участников сети.
Под Web 2.0 обычно понимают сервисы, которые позволяют пользователями самим генерировать контент, а также распространять его посредством лент и гиперссылок. Пользователь сам выбирает, какой именно контент он должен получать, выходя в сеть, настраиваясь на чтение избранных блогов, сообществ, лент. Таким образом, фундаментальная основа Web 2.0 кроется в многочисленных сервисах веб-связи, которые объединяют схожие информационные потоки и направляют их конкретным потребителям. Однако такая концепция влечет за собой существенные недостатки. В частности, пользователь не знает, что происходит за пределами его информационных сетей. Нефильтрованный контент, который может нести важную ценность,
может пройти мимо и оказаться вне интересов пользователя и сообщества.
Осознав этот простой факт, ряд крупных корпораций (в частности, BBC, IBM, Google, Oracle) в качестве основного направления развития интернета на ближайшие 5-10 лет предложили семантическую систему Web 3.0, основанную на «умной» обработке информации. Суть её заключается в том, что не пользователи, а сами машины осуществляют поиск информации по содержимому, включая поиск по видео- и цифровым изображениям, основываясь на метаданных и метабазах. Web 3.0 должен решить самую актуальную проблему развития интернета - поиска значимой информации, отделение её от информационного мусора. Одно из решений заключается в том, чтобы ранжировать информацию по источнику авторства, в зависимости от рейтинга
источника. И сам рейтинг должен быть не автоматическим, начисляемым просто за активность в сети, а определяемым другими пользователями интернета. Другие, более популярные решения, в основном строятся вокруг метаданных.
Web: future is now
В языкознании семантика изучает смысл предложений, в концепции Semantic Web (SW) однозначно характеризует найденный контент по ряду характерных признаков. SW для трактовки данных использует универсальный идентификатор ресурсов (URI; это ссылки не только на электронные адреса или какие-то Web-страницы, но и на отдельных людей, города, художественные артефакты и т. д.), онтологии и языки описания метаданных (лексический анализ для машинной обработки).
SW становится надстройкой над уже существующими системами социальных сетей и облегчает поиск и обработку информации в первую очередь для машин. Осуществляется это технически дублированием содержания контента в метабазы. Зачем же необходимо облегчить обработку информации для машин? Сейчас для людей информация готовится в виде текста, образов и звуков, а для машин – в виде специальных кодов. Семантическая сеть предусматривает объединение этих разных видов информации в единую структуру, где каждому элементу «человеческой» информации будет соответствовать машинный код – специальный смысловой тэг. Все тэги должны составлять единую иерархическую структуру RDF (Resource Description Framework),
на основе которой и будет работать семантическая сеть. Метаданные будут в обязательном порядке включать сведения о том, как, где и кем была собрана данная информация и как она структурирована, что позволит URI привести ссылки на конкретного пользователя.
Web: практическая реализуемость
Семантический веб - уже не мечта и не фантастика, он активно используется в крупных корпорациях и госучреждениях, но это специальные разработки, требующие больших усилий. Например, в разведке семантическая технология используется для выявления связей между людьми при борьбе с терроризмом. Вся информация о террористах хранится в трехуровневой системе RDF, построенной на стандартной базе данных. Для управления сложным процессом обработки этих данных системе требуется 22 Тбайт оперативной памяти, и работает она нестабильно, а на восстановление системы после сбоя уходит неделя. Однако первые шаги в сторону Web 3.0 сделаны, и мы можем подробнее взглянуть на основу технологии – семантические
спецификации, протоколы и языки.
Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology Language и SPARQL, а также их родственники, наподобие XML. Весь этот набор букв позволяет разработчикам организовать данные в семантическую структуру.
Самый интересный из языков Web 3.0 - без сомнения RDF. В языке RDF документ состоит из утверждений о том, что нечто (человек, веб-страница или что-либо ещё) имеет определённое отношение (как то «быть сестрой», «быть автором») с некоторым определённым значением (другой человек, другая веб-страница). Подобная структура оказывается весьма естественной для описания подавляющего большинства машинно-обрабатываемых данных. Субъект и объект задаются с помощью URI, подобно ссылкам на веб-страницах. Стоит отметить, что RSS версии 0.90 и 1.0 построен на RDF.
Другой кит, на котором стоит Web 3.0 - Web Ontology Language (OWL). OWL – это язык онтологии для интернета на основе XML. Язык веб-онтологий OWL призван обеспечить язык, который может быть использован для описания классов и отношений между ними, которые присущи для веб-документов и приложений. В основе языка находится представление действительности в модели данных объект-свойство. Каждому элементу описания в этом языке ставится в соответствие www-адрес URI.
Web: проекты и приложения
Уже сейчас достаточно большое количество компаний развивает Semantic Web. Например, английская компания Garlik использует технологии Semantic Web для «управления персональными данными в цифровом мире». В частности, компания работает над тем, чтобы дать возможность пользователям обнаружить следы своего присутствия в Web и увидеть, что может раскрыть агрегирование этой информации, выставленной на обозрение через хранилище RDF. Инженер компании Yahoo Дейв Беккетт объявил в ноябре 2006 года, что сайт Yahoo Food использует OWL и RDF, а также ряд других технологий. Компания Teranode среди прочего исследует использование технологий Semantic Web для интеграции научных данных, особенно в области
биологических наук.
Joost, новая платформа Internet-телевидения, объявив о партнерстве с Viacom, широко использует RDF. Наиболее продвинутыми разработками Web 3.0 можно назвать следующие:
FreeBase - сообщество пользователей, которые создают связи к свободно представленным базам WikiPedia, Musicbranz и другим. Слинкованные данные добавляются в Wiki-стиле по мета-признакам, категориям и фольксомонии. В базе данных сейчас насчитывается около 20 000 фильмов, 350 000 музыкальных альбомов, 350 000 данных о людях, всего 873 категории. Каждую запись в базе можно обсудить, посмотреть отношения или отредактировать. Проект находитcя в альфа-тестировании, и поэтому доступ к базе - только по приглашениям.
DBpedia - тоже сообщество, которое извлекает структурированную информацию из Wikipedia и создает связи с другими источниками. Проект использует RDF (9,3 миллиона документов с 647,348 связями на 11 языках), что позволяет делать SPARQL-запросы к этим данным (SPARQL – стандарт языковых запросов семантической паутины)). Несколько реализаций для различных языков программирования уже существуют. На данный момент имеет связанные ссылки с базами Musicbranz, Geonames, YAGO-классификацией и содержит почти 60 тысяч данных о людях. В базе представлены такие разделы, как фильмы, музыка, политика,
наука и другие, постоянно пополняющиеся.
Friend of a Friend (FOAF) - проект по созданию модели машинно-читаемых домашних страниц и социальных сетей. Сердцем проекта является спецификация, которая определяет некоторые выражения, используемые в высказываниях о ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться на эти данные, используется идентификатор, включающий уникальные свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для лёгкой расширяемости, FOAF позволяет распределять данные между различными компьютерными окружениями.
WordNet - лексическая база для английского языка. В базе собраны имена существительные, глаголы, прилагательные и наречия, которые группируются в наборы познавательных синонимов (synsets). Synsets тесно связан с помощью умозрительно-семантических и лексических отношений. Результирующая сеть значимо связанных слов и понятий может быть найдена представленным на сайте навигатором. Ко всем данным базы открыт свободный доступ с помощью машинных запросов SPARQL.
Geonames – проект сопоставления географических названий с ассоциируемыми RDF-данными. Другими словами, географическая информация будет представлена на сайте по RDF-стандартам.
Linking Open Data on the Semantic Web - собирается вообще всю открытую информацию в интернете перевести в RDF и, к тому же, занимается составлением RDF-ссылок между другими проектами Web 3.0.
Обычные сайты, построенные по технологии Web 3.0:
http://www.sun.com/servers/wp.html/
http://www.forum.nokia.com/
http://pressroom.oracle.com/
http://www.harpers.org/
Однако используемые на этих сайтах технологии незаметны для пользователя. Чтобы их увидеть в удобочитаемом виде, вам придется использовать браузер для просмотра RDF, такой как Tabulator, Disco, или OpenLink RDF Browser, или применять расширения веб-браузеров, такие как PiggyBank или Semantic Radar.
Web: заключение
Web 3.0 в его сегодняшнем, Семантическом понимании вовсе не собирается приходить на смену Web 1-2. Web 3.0 - это не трехмерные вращающиеся во все стороны сайты, не голосовое управление контентом, не искусственный интеллект, который полностью контролирует все системы, от вашего дома до кондиционера в офисе.. Хотя концепция Web 3.0 вовсе не отрицает таких дизайнерских или технологических усовершенствований. Web 3.0 на сегодняшний день в большей степени отвечает внутренним изменениям механизмов работы Сети, подчас незаметные обычному пользователю. Семантический Web – не революционное решение, которое однажды изменит мир вокруг нас, а постепенно внедряемая (и уже успешно) технология,
инструмент, позволяющий в лучшей степени использовать доступные нам сейчас ресурсы. Пожалуй, Web 3.0 – финальная стадия развития того предсингулярного интернета, каким мы знаем его сейчас, объединяющая всё лучшее от первой и второй версии и добавляющая улучшенные механизмы взаимодействия между пользователем и контентом. Возможно, это покажется абсурдным, но идеальная форма развития интернета на сегодняшний день кроется в адекватном выполнении самых примитивных запросов пользователя. Зайти в интернет и скачать нужный реферат за 15 секунд, а не ползать полчаса по миллиону ссылок или отклонять бестолковые предложения пользователей социальной сети – вот тот Web 3.0, который всех нас ждет в
ближайшие несколько лет. А уж зашли вы в инет с микрочипа, встроенного в голову, или через обычный веб-браузер, совершенно не важно.