Третий Веб

Содержание статьи

Web: вступление
Web: классификация версий
Web: future is now
Web: практическая реализуемость
Web: проекты и приложения
Web: заключение

Web: вступление

Совсем недавно новостные агентства облетела новость, что IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.

В общем-то, многие эксперты сомневаются, что и Web 2.0 в действительности существует, подразумевая эфемерность и абсурдность самого явления нумерации Сети. Так же критично они посматривают и в сторону «третьей версии неизвестного продукта». Многие считают, что улучшение качества поиска - лишь небольшой элемент общего технологического прогресса, достойный максимум версии 2.1. Мол, когда научатся распознавать образы, человеческую речь и построят более-менее вменяемый ИИ, тогда и поговорим о «третьем Вебе».

Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь

Web: классификация версий

Когда мы говорим о Web, то в первую очередь подразумеваем контент. Скачать рефератик или новый софт из гигантской всепланетной свалки и заплатить за это утомлением глаз баннерной рекламой – это концепция того, что сейчас можно назвать Web 1.0. Пользователь выступает пассивным потребителем информации, которую создают 2-10 % активных участников сети.

Под Web 2.0 обычно понимают сервисы, которые позволяют пользователями самим генерировать контент, а также распространять его посредством лент и гиперссылок. Пользователь сам выбирает, какой именно контент он должен получать, выходя в сеть, настраиваясь на чтение избранных блогов, сообществ, лент. Таким образом, фундаментальная основа Web 2.0 кроется в многочисленных сервисах веб-связи, которые объединяют схожие информационные потоки и направляют их конкретным потребителям. Однако такая концепция влечет за собой существенные недостатки. В частности, пользователь не знает, что происходит за пределами его информационных сетей. Нефильтрованный контент, который может нести важную ценность,
может пройти мимо и оказаться вне интересов пользователя и сообщества.

Осознав этот простой факт, ряд крупных корпораций (в частности, BBC, IBM, Google, Oracle) в качестве основного направления развития интернета на ближайшие 5-10 лет предложили семантическую систему Web 3.0, основанную на «умной» обработке информации. Суть её заключается в том, что не пользователи, а сами машины осуществляют поиск информации по содержимому, включая поиск по видео- и цифровым изображениям, основываясь на метаданных и метабазах. Web 3.0 должен решить самую актуальную проблему развития интернета - поиска значимой информации, отделение её от информационного мусора. Одно из решений заключается в том, чтобы ранжировать информацию по источнику авторства, в зависимости от рейтинга
источника. И сам рейтинг должен быть не автоматическим, начисляемым просто за активность в сети, а определяемым другими пользователями интернета. Другие, более популярные решения, в основном строятся вокруг метаданных.

Web: future is now

В языкознании семантика изучает смысл предложений, в концепции Semantic Web (SW) однозначно характеризует найденный контент по ряду характерных признаков. SW для трактовки данных использует универсальный идентификатор ресурсов (URI; это ссылки не только на электронные адреса или какие-то Web-страницы, но и на отдельных людей, города, художественные артефакты и т. д.), онтологии и языки описания метаданных (лексический анализ для машинной обработки).

SW становится надстройкой над уже существующими системами социальных сетей и облегчает поиск и обработку информации в первую очередь для машин. Осуществляется это технически дублированием содержания контента в метабазы. Зачем же необходимо облегчить обработку информации для машин? Сейчас для людей информация готовится в виде текста, образов и звуков, а для машин – в виде специальных кодов. Семантическая сеть предусматривает объединение этих разных видов информации в единую структуру, где каждому элементу «человеческой» информации будет соответствовать машинный код – специальный смысловой тэг. Все тэги должны составлять единую иерархическую структуру RDF (Resource Description Framework),
на основе которой и будет работать семантическая сеть. Метаданные будут в обязательном порядке включать сведения о том, как, где и кем была собрана данная информация и как она структурирована, что позволит URI привести ссылки на конкретного пользователя.

Web: практическая реализуемость

Семантический веб - уже не мечта и не фантастика, он активно используется в крупных корпорациях и госучреждениях, но это специальные разработки, требующие больших усилий. Например, в разведке семантическая технология используется для выявления связей между людьми при борьбе с терроризмом. Вся информация о террористах хранится в трехуровневой системе RDF, построенной на стандартной базе данных. Для управления сложным процессом обработки этих данных системе требуется 22 Тбайт оперативной памяти, и работает она нестабильно, а на восстановление системы после сбоя уходит неделя. Однако первые шаги в сторону Web 3.0 сделаны, и мы можем подробнее взглянуть на основу технологии – семантические
спецификации, протоколы и языки.

Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology Language и SPARQL, а также их родственники, наподобие XML. Весь этот набор букв позволяет разработчикам организовать данные в семантическую структуру.

Самый интересный из языков Web 3.0 - без сомнения RDF. В языке RDF документ состоит из утверждений о том, что нечто (человек, веб-страница или что-либо ещё) имеет определённое отношение (как то «быть сестрой», «быть автором») с некоторым определённым значением (другой человек, другая веб-страница). Подобная структура оказывается весьма естественной для описания подавляющего большинства машинно-обрабатываемых данных. Субъект и объект задаются с помощью URI, подобно ссылкам на веб-страницах. Стоит отметить, что RSS версии 0.90 и 1.0 построен на RDF.

Другой кит, на котором стоит Web 3.0 - Web Ontology Language (OWL). OWL – это язык онтологии для интернета на основе XML. Язык веб-онтологий OWL призван обеспечить язык, который может быть использован для описания классов и отношений между ними, которые присущи для веб-документов и приложений. В основе языка находится представление действительности в модели данных объект-свойство. Каждому элементу описания в этом языке ставится в соответствие www-адрес URI.

Web: проекты и приложения

Уже сейчас достаточно большое количество компаний развивает Semantic Web. Например, английская компания Garlik использует технологии Semantic Web для «управления персональными данными в цифровом мире». В частности, компания работает над тем, чтобы дать возможность пользователям обнаружить следы своего присутствия в Web и увидеть, что может раскрыть агрегирование этой информации, выставленной на обозрение через хранилище RDF. Инженер компании Yahoo Дейв Беккетт объявил в ноябре 2006 года, что сайт Yahoo Food использует OWL и RDF, а также ряд других технологий. Компания Teranode среди прочего исследует использование технологий Semantic Web для интеграции научных данных, особенно в области
биологических наук.

Joost, новая платформа Internet-телевидения, объявив о партнерстве с Viacom, широко использует RDF. Наиболее продвинутыми разработками Web 3.0 можно назвать следующие:

FreeBase - сообщество пользователей, которые создают связи к свободно представленным базам WikiPedia, Musicbranz и другим. Слинкованные данные добавляются в Wiki-стиле по мета-признакам, категориям и фольксомонии. В базе данных сейчас насчитывается около 20 000 фильмов, 350 000 музыкальных альбомов, 350 000 данных о людях, всего 873 категории. Каждую запись в базе можно обсудить, посмотреть отношения или отредактировать. Проект находитcя в альфа-тестировании, и поэтому доступ к базе - только по приглашениям.

DBpedia - тоже сообщество, которое извлекает структурированную информацию из Wikipedia и создает связи с другими источниками. Проект использует RDF (9,3 миллиона документов с 647,348 связями на 11 языках), что позволяет делать SPARQL-запросы к этим данным (SPARQL – стандарт языковых запросов семантической паутины)). Несколько реализаций для различных языков программирования уже существуют. На данный момент имеет связанные ссылки с базами Musicbranz, Geonames, YAGO-классификацией и содержит почти 60 тысяч данных о людях. В базе представлены такие разделы, как фильмы, музыка, политика,
наука и другие, постоянно пополняющиеся.

Friend of a Friend (FOAF) - проект по созданию модели машинно-читаемых домашних страниц и социальных сетей. Сердцем проекта является спецификация, которая определяет некоторые выражения, используемые в высказываниях о ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться на эти данные, используется идентификатор, включающий уникальные свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для лёгкой расширяемости, FOAF позволяет распределять данные между различными компьютерными окружениями.

WordNet - лексическая база для английского языка. В базе собраны имена существительные, глаголы, прилагательные и наречия, которые группируются в наборы познавательных синонимов (synsets). Synsets тесно связан с помощью умозрительно-семантических и лексических отношений. Результирующая сеть значимо связанных слов и понятий может быть найдена представленным на сайте навигатором. Ко всем данным базы открыт свободный доступ с помощью машинных запросов SPARQL.

Geonames – проект сопоставления географических названий с ассоциируемыми RDF-данными. Другими словами, географическая информация будет представлена на сайте по RDF-стандартам.

Linking Open Data on the Semantic Web - собирается вообще всю открытую информацию в интернете перевести в RDF и, к тому же, занимается составлением RDF-ссылок между другими проектами Web 3.0.

Обычные сайты, построенные по технологии Web 3.0:

http://www.sun.com/servers/wp.html/
http://www.forum.nokia.com/
http://pressroom.oracle.com/
http://www.harpers.org/

Однако используемые на этих сайтах технологии незаметны для пользователя. Чтобы их увидеть в удобочитаемом виде, вам придется использовать браузер для просмотра RDF, такой как Tabulator, Disco, или OpenLink RDF Browser, или применять расширения веб-браузеров, такие как PiggyBank или Semantic Radar.

Web: заключение

Web 3.0 в его сегодняшнем, Семантическом понимании вовсе не собирается приходить на смену Web 1-2. Web 3.0 - это не трехмерные вращающиеся во все стороны сайты, не голосовое управление контентом, не искусственный интеллект, который полностью контролирует все системы, от вашего дома до кондиционера в офисе.. Хотя концепция Web 3.0 вовсе не отрицает таких дизайнерских или технологических усовершенствований. Web 3.0 на сегодняшний день в большей степени отвечает внутренним изменениям механизмов работы Сети, подчас незаметные обычному пользователю. Семантический Web – не революционное решение, которое однажды изменит мир вокруг нас, а постепенно внедряемая (и уже успешно) технология,
инструмент, позволяющий в лучшей степени использовать доступные нам сейчас ресурсы. Пожалуй, Web 3.0 – финальная стадия развития того предсингулярного интернета, каким мы знаем его сейчас, объединяющая всё лучшее от первой и второй версии и добавляющая улучшенные механизмы взаимодействия между пользователем и контентом. Возможно, это покажется абсурдным, но идеальная форма развития интернета на сегодняшний день кроется в адекватном выполнении самых примитивных запросов пользователя. Зайти в интернет и скачать нужный реферат за 15 секунд, а не ползать полчаса по миллиону ссылок или отклонять бестолковые предложения пользователей социальной сети – вот тот Web 3.0, который всех нас ждет в
ближайшие несколько лет. А уж зашли вы в инет с микрочипа, встроенного в голову, или через обычный веб-браузер, совершенно не важно.

← Ранее Нарушение конфиденциальности информации в XWiki

Далее → Переполнение буфера в Callisto PhotoParade Player PhPInfo ActiveX

Далее по этой теме
Ранее по этой теме

Обнародованы спецификации языка запросов семантической сети SPARQL

Проект Semantic Web предполагает создание специализированной системы с некоторыми зачаткам…

16.01.2008
4 мин на чтение
Изобретатель Всемирной паутины продвигает идею семантической сети

Сэр Тимоти Бернерс-Ли, изобретатель Всемирной паутины, в интервью корреспондентам Times On…

13.03.2008
4 мин на чтение
Поднимаем BitTorrent трекер

В уникальности технологии BitTorrent сомневаться не приходится: 150 миллионов пользовател…

04.09.2008
7 мин на чтение
The Pirate Bay создает свою файлообменную технологию

Популярнейший пиратский ресурc Pirate Bay намерен отказаться от использования сети BitTorr…

01.11.2007
4 мин на чтение
Делает ли Google нас глупее?

«Дэйв, стойте! Вы будете останавливаться? Остановитесь, Дэйв! Вы остановитесь? Дэйв?» Так…

22.07.2008
4 мин на чтение
Мир Open Source за неделю: WIPmania.com – бесплатная геолокационная база данных IP-адресов

Запущен новый проект, представляющий собой бесплатный сервис геолокации, который содержит…

09.09.2008
3 мин на чтение

Бернерс-Ли выступил в Конгрессе

Вчера Тим Бернерс-Ли (директор консорциума W3C) выступил с докладом о будущем Всемирной Па…

02.03.2007
3 мин на чтение
США и Европа борются за Web 3.0

Европейский Союз и США будут жестко конкурировать за право первенства в технологиях Web 3.…

27.07.2007
3 мин на чтение
Владельцев порносайтов будут сажать на 15 лет

Министерство юстиции США предлагает увеличить максимальный срок тюремного заключения для в…

20.09.2006
3 мин на чтение
Цифровая инквизиция: системы борьбы с пиратством

80-е гг. ХХ в. – период массового распространения портативных плееров Sony Walkman и глубо…

14.06.2007
2 мин на чтение
Профессиональные грузчики: полиморфные технологии на службе спамеров

Ожесточенная борьба со спамерами не приводит к их вымиранию, напротив, побуждает разрабаты…

22.01.2007
1 мин на чтение
Война с HD: история победы

Неправильные пчёлы в формате HD

20.02.2007
2 мин на чтение

Третий Веб

Содержание статьи

Web: вступление

Web: классификация версий

Web: future is now

Web: практическая реализуемость

Web: проекты и приложения

Web: заключение

Обнародованы спецификации языка запросов семантической сети SPARQL

Изобретатель Всемирной паутины продвигает идею семантической сети

Поднимаем BitTorrent трекер

The Pirate Bay создает свою файлообменную технологию

Делает ли Google нас глупее?

Мир Open Source за неделю: WIPmania.com – бесплатная геолокационная база данных IP-адресов

Бернерс-Ли выступил в Конгрессе

США и Европа борются за Web 3.0

Владельцев порносайтов будут сажать на 15 лет

Цифровая инквизиция: системы борьбы с пиратством

Профессиональные грузчики: полиморфные технологии на службе спамеров

Война с HD: история победы

Подпишись на наc в Telegram!

Из рубрики «Взлом»

Хакеры.RU. Глава 0х02. Темные схемы

Телеграмма для дельфина. Управляем Flipper Zero удаленно при помощи Raspberry Pi и Telegram

Забытый веб. Как мы нашли самодельный веб-сервис, давший дорогу внутрь сети

Самооборона по-хакерски. Ловим нарушителя на уровне сети

Трюки

Телеграмма для дельфина. Управляем Flipper Zero удаленно при помощи Raspberry Pi и Telegram

Не тапай хомяка! Как я автоматизировал игру Hamster Kombat

Кастомный Arch. Создаем образы Arch Linux для десктопа и Raspberry Pi

Диета для Arch Linux. Запускаем Arch на компьютерах с малым объемом памяти

Последние новости

АРТ-группировка Cloud Atlas атакует госсектор России и Беларуси

Роскомнадзор заблокировал мессенджер Viber

Эксперты обошли МФА Microsoft с помощью атаки AuthQuake

Баг в WordPress-плагине Hunk Companion можно использовать для установки уязвимых плагинов

Оператор биткоин-банкоматов допустил утечку данных 58 000 клиентов