Сегодняшний наш поиск будет не совсем частно-локальным, как это было в
предыдущих выпусках, поскольку затронет и несколько профессиональных продуктов,
используемых в корпоративных средах. Не секрет, что объём информации
циркулирующий в бизнесе удваивается каждые шесть месяцев. Уже давно стало
невозможно разобраться в море информации без наличия специальных приложений,
особенно если поиск затруднён постоянными изменениями количества и в некотором
роде качества доступной информации, что породило целый программный рынок, на
котором действуют многие крупные поставщики услуг поиска, веб-порталов и
производителей программного обеспечения. Локальный поиск из обычной переборки
данных превратился в инструмент конкурентной борьбы и выживания на рынке.
Достаточно провести аналогии с построением структур поиска в операционных
системах Mac OS и Windows, или поисковых машинах Rambler и Google, чтобы оценить
недостатки и преимущества того или иного продукта. Как известно, большинство
поисковых продуктов работают с индексированной базой данных, в которой они и
осуществляют выборку искомых файлов по релевантности. Но это что касается
локальной поиска. В интернете поиск осуществляется более сложными методами, о
чём мы ещё непременно поговорим.
Windows Desktop Search
Начнём мы со сравнительно нового продукта от компании Microsoft. Билл Гейтс
не раз заявлял желание всячески способствовать, развивать и углублять создание
поисковых систем и технологий. Но до создания какой-либо феноменально работающей
программы от Microsoft или конкурентоспособного сервера в Интернете пока рано (MSN
все равно до Google не дотягивает), несмотря даже на наличие 2.6 версии WDS.
Однако несомненным преимуществом проги является то, что она бесплатна. Теперь
взглянем более подробно.
После установки WDS превратился в маленькое оконце на панели задач, куда,
следовательно, вводится запрос. Помимо этого прога должна была встроиться в
Internet Explorer, Outlook Express, Microsoft Outlook, а также в окна Проводника
Windows, однако нигде, кроме как на панели задач, обнаружить её не удалось. При
желании оконце поиска разворачивается на весь экран, и тогда выглядит в виде
двух колонок. Слева отражается список найденных файлов, справа имеется
возможность видеть внутреннее содержание обнаруженных документов. Приятно было
обнаружить, что программа так же осуществляет поиск и в режиме Web, однако
протестировать её возможности в глобальной сети на момент написания статьи
оказалось невозможным. Но приятное приятным, а уже при индексировании файлов WDS
начала выкобениваться и периодически дозваниваться в службу технической
поддержки. Причины такого поведения остались для меня загадкой.
С горем пополам прога проиндексировала почтовые базы данных, картиночки,
мультимедийные файлы, и много чего ещё (по уверениям создателей - более двухсот
форматов). Ну а дальше началась сплошная головная боль. При построении длинных
запросов возможности WDS разрываются в клочья. Работа с латиницей, как ни
странно, осуществляется крайне плохо. О таких вещах как морфология и поиск с
коррекцией ошибок разработчики напрочь забыли. В общем и целом – сырая программа
класса «сделана за бутылку пива на спор». Завоевание доверия и уважения со
стороны пользователей будет для Microsoft во веки вечные не простым, да наверное
и не осуществимым делом.
ISYS Desktop
Программа, которая меня несколько озадачила. Хотя бы тем, что она самая
большая из всех программ обзора. 40 метров предельной функциональности.
Создатели попытались запихать всё, что только возможно. И им это удалось.
Процесс установки здесь напугает любого хакера: ещё до скачивания программы
вас попросят зарегистрироваться, а иначе - никак. Далее, интерфейс, который
будет сниться в кошмарах юзерям. Сделан он (интерфейс, а не юзер) весьма
симпатично, ничего лишнего в глаза не бросается, однако - это впечатления
человека, уже несколько привыкшего к нему. Разобраться где и что находится, куда
нажимать и где осуществить наконец-то поиск новичку будет непросто. Очень
рекомендуется прочитать справку перед началом работы - сэкономите много нервов и
времени. Ко всему прочему добавляется также полное отсутствие поддержки русского
языка в программе. Пипец какой-то. Вдобавок, окна здесь не перегружены
элементами управления, однако расплатиться за это пришлось многомодульностью и
использованием дополнительных окон. Например, запросы для поиска вводятся при
помощи запуска одной программы, а управление индексами производится при помощи
уже другой программки. Поисковые запросы вводятся здесь также в отдельных,
появляющихся окошках. Что лучше - перегруженность интерфейса или повсеместная
многооконность - сказать трудно, скорее, это дело вкуса, однако на мой взгляд
большие окна хороши только на 22 дюймовых мониторах Apple.
Что касается создания индексов, то программа ничем новым нас не удивляет, а
как и многие представители её класса предоставляет возможности по упрощению
процесса установки опций для нового индекса. Эти возможности включают в себя
несколько готовых шаблонов для создания индексов по папке «Мои документы»,
«Почта», «Почта и документы», «Определенная папка», «Папка с выбором типов
файлов» и др. Такие шаблоны упрощают создание индексов на первом этапе. Утилита
для работы с индексами обладает не слишком удачным интерфейсом, отпугивающим
некоторой сложностью (это весьма субъективная оценка, по правде говоря), однако,
если разобраться, он предоставляет множество полезных опций и в целом его
использование особого труда не вызывает. ISYS Desktop умеет индексировать данные
из различных источников данных, а также предоставляет множество гибких настроек
для такой индексации. Среди дополнительных возможностей по индексированию:
поддержка SQL, FTP, TRIM Context, WORLDOX 2002, скрипты. При создании индекса,
если вы выбирали пункт «Папка с выбором типов файлов», у вас есть возможность
выбрать типы файлов для индексации вручную (по расширению). Надо сказать, что
поддерживаемых типов файлов просто огромное количество, однако свой тип
(расширение) добавить в существующий список не удастся. Можно также отметить
наличие планировщика индексации.
Возможности поиска у этой программы неплохи. То, что используется в ISYS,
значительно мощнее обычной поддержки логических операций. Из продвинутых
возможностей по поиску программа предлагает использование синонимов, фильтра
сортировки (по пути, имени и дате создания файла). Набор логических операторов
несколько шире стандартного набора. Помимо логических операций, программа
позволяет работать со многими другими операторами, которые в принципе способны
заменить некоторые виды поиска, например, поиск с синтаксическим разбором вполне
можно заменить использованием специальных операторов. Очень удивило то, что в
программе отсутствует поиск с использованием морфологии. Это серьезное упущение,
так как эффективность поиска сильно повышается при использовании
морфологического анализа. Кроме того, нет списка значимых слов, зато
присутствует обширный список незначимых слов. Также заявлены такие функции при
поиске как «приблизительный поиск» и «эвристический анализ». Само собой, что на
практике в лучшем случае удаётся достигнуть половины заявленных свойств :).
Результаты поиска весьма информативны, отображаются в виде списка документов,
отсортированных по релевантности. Ниже отображается предпросмотр выбранного
документа. Правда, предпросмотр здесь доступен лишь в виде plain текста,
добиться отображения документов в родном формате, будь то Word, Html или PDF так
и не удалось (точно так же как и в WDS), хотя это в принципе и не слишком
критично. Программа позволяет разбивать найденные документы на группы по
определенным признакам (по умолчанию они разделены по релевантности). Можно
также просматривать уже найденные документы, выбирая отдельные папки (это
удобно, когда результат выдает очень большое количество документов).
Использование программы в корпоративной сети также весьма оправдано, так как она
предоставляет неплохие возможности по организации сетевого поиска. Система
поиска основана на создании общедоступного индекса, который содержит
проиндексированные данные с общедоступных сетевых ресурсов.
По сути, программа от ISYS достойна внимания, хотя бы ознакомления с ней. Эта
программа - зрелый проект, обладающий огромным количеством функций (не всегда и
не всем, конечно, они бывают нужны, но все же). Шансы на то, что в программе
появятся некоторые улучшения со стороны обработки поисковых запросов, не
известны, но и на данный момент ее можно рекомендовать практически для
повсеместного использования. А учитывая, что для домашних систем она все же
слишком тяжеловата, то основные места ее инсталляции - корпоративные сети.
SearchInform
В SearchInform разобраться достаточно просто, если вы выпили меньше четырёх
рюмок Green Absent. У меня на данный момент с этим проблемы, однако попробую
немного рассказать о программе, умалчивая о жутковатом интерфейсе.
Программа полнотекстового поиска документов SearchInform совмещает в себе
возможности фразового поиска с учетом морфологии и словаря синонимов и
технологии поиска похожих документов SoftInform Search Technology, что весьма
примечательно, так как подобных свойств я не смог обнаружить даже у ISYS.
Программа предназначена для поиска информации в больших объемах данных и
существенно повышает качество обработки информации и уменьшает время поиска
документов. SearchInform поддерживает возможность работы с различными
источниками данных. Работает с наиболее распространенными форматами текстовых
файлов (txt, doc, rtf, pdf, htm, html). Присутствует возможность индексации
полей из практически всех существующих на данный момент распространенных систем
(например, Access, MS SQL, Oracle, а также любых СУБД, поддерживающих SQL).
Поиск документов основан на запатентованной технологии SoftInform Search
Technology и осуществляется при помощи математического анализа структуры
документа и выбора похожих слов, словосочетаний и массивов текста. При поиске
похожих по содержанию документов с помощью программы SearchInform задействовано
все множество слов, встречающихся в документе с учетом всех словоформ. Для
конкретизации поиска в SearchInform присутствует функция важных слов, на которые
программа будет обращать внимание в первую очередь, проводя дополнительный
анализ похожести.
Программа чудесно работает, при том счастливом варианте, когда вам удалось её
запустить. После установки автоматически запускается Мастер регистраций, в окно
которого требуется ввести регистрационный ключ. Если все регистрационные данные
будут введены в соответствующие поля и вы не ошибётесь при повторном наборе
пароля, то появится окно с сообщением об успешной активации программы на вашем
компьютере. Да, не забудьте, что для успешной регистрации обязательно требуется
связь с инетом.
Интерфейс же программы выполнен с соблюдением всех общепринятых правил,
однако громоздок и неудобен. Используя программу в первый раз кажется, что он
чересчур сложный, иногда бывает не просто вспомнить в каком меню или на какой
вкладке находится нужная опция, однако, при более длительном использовании,
интерфейс уже не кажется таким ужасающе сложным. По крайне мере мне так по
телефону сейчас объяснили. Немного разобравшись с интерфейсом, можно приступить
к созданию индекса. После создания индекса, при попытке провести первый пробный
поиск документов, можно прийти в некоторое замешательство: «Здесь присутствует
два вида поиска, а какой же из них нужен мне?». Программа действительно умеет
осуществлять два вида поиска - это фразовый поиск и поиск документов, похожих по
содержанию на текст запроса. Недолгие поиски в интернете могут быстро дать
информацию о том, что так называемый «поиск похожих» - новая разработка в
области анализа текста. Эта система позволяет находить тексты, похожие именно по
смысловому содержанию. Самым приятным оказалось то, что после проведения
тестовых поисковых запросов, оказалось, что теория вполне совпадает с практикой!
Программа действительно ищет похожие по содержанию документы и отображает их в
списке, упорядочивая по проценту похожести.
Далее рассмотрим, что предлагает SearchInform (в частности, ее корпоративная
версия SearchInform Corporate) для работы в корпоративной сети. Существуют два
вида приложений: серверная часть и пользовательская. Серверная часть
самостоятельно обрабатывает указанные индексы, а пользователи могут использовать
их для поиска, в зависимости от назначенных им прав доступа. Пользователи могут
быть настроены автоматически, используя учетные записи Windows (говоря
профессиональным языком, SearchInform использует NTFS аутентификацию Windows,
спасибо умным людям на другом конце радиоволны), так и вручную (пользователей
придется добавлять по отдельности). Каждому пользователю можно разрешить или
запретить доступ к определенным индексам, можно также объединять пользователей в
группы.
Подводя итог по этой программе, можно порекомендовать ее к использованию в
любых условиях. Тестирование показало, что скорость работы SearchInform
достаточно высока, и она качественно анализирует запросы.
dtSearch Desktop
Каждая программа меня чем-то по-своему удивляет, это уже традиция. Не отошла
от неё и dtSearch Desktop. Она просто тихо установилась и начала ждать, когда я
её включу. Не кинулась тут же индексировать всё подряд, не потребовала
немедленной регистрации, никуда не встроилась. Молодец! Интерфейс dtSearch
довольно прост, но некоторые окна или вкладки несколько перегружены элементами,
из-за чего создается впечатления сложности использования. Но на самом деле
особых трудностей не возникает. Единственным действительно неприятным моментом
является отсутствие поддержки софтиной русского языка (не смотря на то, что
искать документы программа может на нескольких языках, интерфейс ее
исключительно английский).
Зато dtSearch одна из немногих программ, которая может индексировать
веб-страницы на заданную пользователем «глубину» (правда, с учетом докачки в
комплект аддона dtSearch Spider). Это кроме поддержки файлов на диске различных
текстовых форматов и электронных писем из Outlook. В то же время, программа не
умеет работать с базами данных, которые являются таким лакомым кусочком для
поисковиков из-за больших объемов информации, находящихся в них, и широкого
распространения в компаниях, а значит и в корпоративных сетях. Что касается
возможностей поиска, то здесь они на должном уровне. Во-первых, в dtSearch
присутствует морфологический поиск (поиск слова во всех его морфологических
формах). Используя данную возможность, вы освобождаете себя от, скажем, таких
раздумий, как «в каком же падеже было употреблено некоторое слово в необходимом
мне документе?». Использование морфологического поиска почти всегда оправдано,
поэтому должно присутствовать в любом профессиональном поисковике.
Поиск по звучанию является нестандартной возможностью даже для
профессиональных поисковиков. Суть его заключается в том, что программа будет
искать слова, которые звучат так же, как введенное вами слово. И что самое
приятное, эта функция работает и для русского языка! Например, набирая слово
«ухо» в поисковом запросе, вы увидите в результате не только слова «ухо», но и
«уха». Однако я вот таких чудодейственных возможностей в программе не выявил. Ни
морфология ни поиск по звучанию корректно не работали. Поиск с коррекцией
ошибок, так же заявленный и неоднократно описанный, так же не показал должных
результатов. По идеи должен осуществляться поиск слов, содержащих синтаксические
ошибки - это могут быть как опечатки, так ошибки в документах, полученных при
помощи систем распознавания символов. На практике всё это выходит через раз.
Поиск с использованием синонимов. Эта возможность использует список синонимов
для различных слов. Так, например, введя слово «быстрый», программа также найдет
слова «скоростной» и другие, являющиеся синонимами для слова «быстрый», если
таковые, конечно, присутствуют в списке синонимов. Готового списка синонимов
вместе с программой dtSearch не поставляется, однако есть возможность
воспользоваться списками в Интернете, либо можно составить свой список
синонимов. Кроме перечисленных возможностей, dtSearch может производить поиск с
использованием фраз, состоящих из слов, соединенных логическими операциями.
Каждому слову в запросе можно устанавливать свой «вес», то есть значимость.
Полезная опция - использование словаря, состоящего из не значимых слов для того,
чтобы не учитывать их при поиске, однако этот словарь также пуст и его придется
заполнять самостоятельно.
Далее рассмотрим возможности программы при работе в сети. По сути, никаких
специфических возможностей для работы с сетью dtSearch не предлагает. Тем не
менее, использовать его в сети вполне возможно. Как вариант, можно создать
некоторый индекс и положить его в общедоступную (расшаренную) папку. Саму же
программу можно установить каждому пользователю на компьютер (что не всегда
удобно, когда в вашей статьи несколько сотен компьютеров – в моей, например, их
за пять сотен), либо выложить ее также на папку, открытую для общего доступа, и
создать специальным образом ярлыки для каждого пользователя отдельно, используя
параметры командной строки, предназначение которых описано в файле помощи,
поставляемым с программой. Также, есть возможность автоматической установки
программы в сеть при помощи MSI файла. При этом будут учтены настройки для
каждого подключаемого пользователя.
В общем и целом - неплохая программа из разряда профессиональных поисковиков.
Может претендовать на хорошую оценку, однако завоевание доверия и уважения со
стороны пользователей может оказаться непростым для dtSearch в силу некоторых
факторов (не все гладко с интерфейсом, русские пользователи обделены, нет ярких
особенностей для работы с сетью, постоянные глюки и неточности).
Yandex Desktop
«Найдётся всё!» - дружно выкрикивали создатели яндекса, обшаривая карманы
покойника. В завершение на операционном столе, как вы догадались из названия
заголовка, продукт известной организации, специализирующейся на поиске. Видимо,
google зародил своеобразную моду. Того и гляди рамблер с апортом подключатся.
После непродолжительной установки Яндекс предложил мне проиндексировать файлы
на компьютере. Я ограничился папкой Документы (можно выбрать конкретные области
индексирования), где из документов были только выдержки «Нюренбергский процесс
глазами очевидца» и «Контакты третьего рода: как не стать жертвой инопланетного
насилия». В правом нижнем углу тут же возник красный как кровь христианских
младенцев значок «Я». Индексация производилась в те моменты, когда я не касался
клавиатуры и мыши, что несколько затрудняло описание программы :). Клик мышей
вызвал из буквы подменю, в котором – хвала электронным богам!- удалось найти
Принудительную индексацию (до того стояла «интеллектуальная индексация»).
Теперь о самой программе. Чуть пониже строки поиск, находятся табы. Все
найденные по вашему запросу файлы группируются по табам в зависимости от их
типа. Так, файлы с расширениями DOC, XLS, PPT, SWF, PDF, RTF, HTML и TXT –
попадают в таб «Документы», MP3 – в таб «Музыка», письма из почтовых баз Outlook
и Outlook Express – в таб «Письма», а сохранённые страницы браузера – в таб
«Сохранённые страницы». Кроме того, перейдя в какой-либо из этих разделов, можно
поискать сразу в нём, что, согласитесь, удобно. Порадовали поддержка морфологии
и поиск по запросу. Например, по запросу: mime=”pdf вы найдете все документы в
формате PDF. А по запросу: текст <<mime=”pdf”найдутся все документы в формате
PDF, содержащие слово «текст». Вместо "pdf" в запросе можно использовать также и
следующие форматы: "mp3", "doc", "xls", "ppt", "swf", "rtf", "text". Кроме того,
можно искать по служебным полям в ваших письмах. Например, для поиска по теме
письма следует использовать следующую конструкцию: subject=(текст)
Помимо "subject" можно также использовать "from" и "to" для поиска по
отправителю и получателю письма соответственно. Конечно, если вы не дружите с
клавой, то написание запросов может показаться тягостным занятием. Так оно и
есть на самом деле.
В большие минусы стоит записать то, что программа yandesk.exe соединяется раз
в сутки или реже с адресом
http://desktop.yandex.ru/version.rss для проверки наличия обновлений
программы. Кроме того, веб-страницы программы загружают с сайта export.yandex.ru
данные для определения статуса авторизации пользователя на Яндексе. Да к тому же
нет возможности предварительного просмотра файлов (они просто выстраиваются под
строкой поиска), небольшой список поддерживаемых форматов данных и постоянные
сбои, с вылетами. Однозначно – прога может тягаться только с WDS.
Вместо заключения
Для корпоративного поиска лучшем решением по-моему скромному хакерскому
мнению будет SearchInform. В рамках моего обзора не входит сравнивание скорости
индексирования, поскольку все эти тесты уже проведены коллегами по компьютерному
цеху. Я лишь анализировал бытовое использование программ. Так вот, эта прога по
неглючности заняла у меня первое место, а у более квалифицированных
исследователей и по скорости индексирования. Это достаточно мощное решение, по
скорости, надёжности и функциональности рекомендуемое для использования в
корпоративных сетях, однако является излишнем для частного пользователя.