На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Форум   Рассылки 
 
Домашняя бухгалтерия

Поисковая ласточка. Поиск похожих SearchInform

07.09.2006 / Программы / Наталья Сергеева

SearchInform Professional

В программе SearchInform имеется обычный фразовый поиск, работающий ничуть не хуже, чем в других аналогичных программах. Так зачем же компания "Софтинформ" встроила в SearchInform еще какой-то поиск, называемый поиском похожих и призванный отбирать документы, похожие по содержанию на найденные? Примерно такой вопрос может возникнуть у нашего читателя, впервые услышавшего о программе SearchInform. В этой статье мы на этот вопрос отвечаем, подробно рассказывая об отличиях и преимуществах этого нового и уникального поиска.

При поиске похожих в SearchInform задействовано все множество слов, встречающихся в документе, с учетом всех словоформ и словаря синонимов. Происходит все следующим образом: в окно запроса копируется весь текст (или фрагмент) одного из документов, выбирается область поиска, запускается сам процесс, и в результате отображается список документов, отсортированный по релевантности - по сути, по степени похожести заданному. 100% совпадения - найден документ-дубль. Документ с меньшим процентом совпадения, соответственно, только похож по содержанию на текст запроса.

Такая возможность (в чистом виде) не реализована ни в одной из существующих поисковых систем, будь они хоть для локального поиска, хоть для поиска по Интернету. Кто-то спросит: "А почему бы не приспособить для этого имеющиеся сервисы?" Нельзя это сделать даже при отличном знании языка запросов и использовании различных операторов. Вы сможете составить запрос для поиска всех слов из текста размером, скажем, в 100 Кб?

Поиск похожих доступен из контекстного меню

Теперь посмотрим, как с этой задачей справится SearchInform. Перейдем на вкладку Similar search программы, скопируем весь текст этого нужного нам второго документа в окно запроса и запустим поиск. Результат этого поиска более чем удовлетворителен: на первых позициях оказались все восемь документов о нашем суперкомпьютере, ниже - документы, непосредственно относящиеся к теме голосового управления компьютером и распознавания речи.

Результат поиска похожих более чем удовлетворителен

Анализ результатов нескольких выполненных запросов показал, что этот вид поиска идет несколько дальше простого сравнения слов из строки запроса со словами в заданном документе. Система поиска похожих осуществляет достаточно интеллектуальный поиск, учитывая множество параметров и особенностей заданного текста. Больший приоритет при поиске похожих отдается документам, действительно похожим по смыслу, нежели по физическому набору символов.

Была предпринята попытка специально подпортить показатели работы программы и спровоцировать ее на выдачу неточных результатов. С этой целью из текста запроса были удалены некоторые фрагменты, на их место вбит набор белиберды, абзацы перемешаны. Системе хватило интеллектуальности для точного определения похожести искомого документа по отношению к измененному запросу. Наиболее релевантные документы таковыми и остались, правда, с несколько измененными процентами этого соответствия.

Четкие границы поиска похожих

Отдельно стоит сказать о возможности дополнительной конкретизации поискового запроса с помощью использования так называемых важных слов - вспомогательных ключевых слов, на которые программа будет обращать внимание в первую очередь, проводя дополнительный анализ похожести. Списки таких слов можно сделать заранее, воспользовавшись специальным менеджером, а при поиске выбрать один из них. Но можно поступить иначе, быстро задав необходимые важные слова для текущего запроса. Оказывается, поле Look for программы позволяет не только вводить текст для выполнения поиска, но и эффективно использовать эту функцию важных слов. Нужно просто выделить эти слова в тексте, нажать правую кнопку мыши и выбрать в контекстном меню пункт Select important keywords. Выбранное слово автоматически подсветится желтым цветом.

Ах, эти важные слова

Рассмотренная возможность особо полезна, когда из всей кучи похожих документов необходимо выделить какую-то наиболее интересующую подтему. Представьте несколько тысяч горячих новостей, скажем, о событиях в Азии, связанных с цунами. Если вам требуется найти информацию о мощности землетрясения по шкале Рихтера, то список интересующих вас документов будет явно отличаться от поиска тех же новостей, но по теме гуманитарной помощи пострадавшему региону. Вот тут и пригодится возможность SearchInform разобрать подобные документы по смежным темам.

Важными словами для первой группы поиска будут слова "мощность", "шкала", "Рихтер", для второй - "помощь", "гуманитарная", "пострадавшие". Результирующие списки, полученные по запросу с использованием различных важных слов, перестроятся и будут отличаться друг от друга. При этом первые два-три результата останутся прежними. Это вполне логично, так как подразумевает высокую похожесть текста (если текст достаточно похож, то, как акценты ни расставляй, он таким же похожим и останется). Но дальше пойдут изменения согласно выбранным важным словам. Таким образом, система поиска похожих меняет релевантность найденных документов в зависимости от заданных ключевых слов. Это позволяет, не просматривая весь список похожих документов, обратить внимание в первую очередь именно на нужную вам информацию.

Дополнительные возможности при поиске похожих

Поиск похожих, в отличие от фразового поиска, вовсе не стандартен, однако элементов управления этим поиском не столь уж много, так что разобраться с ним совсем не сложно. По умолчанию в программе включена опция использования списка синонимов при поиске похожих документов. Списки эти можно создавать как для каждого из используемых языков, так и для каждого конкретного случая (адаптировать под конкретный поиск). Введение дополнительных синонимов позволяет не только ускорить поиск информации, но и сделать его более точным.

Как и при фразовом поиске, пункт Relevance позволяет ограничивать число выводимых в окно результатов записей. Но в отличие от вкладки Phrase search ограничение здесь идет не по строго заданному количеству результатов, а по отсеиванию результатов с процентом релевантности ниже значения, установленного с помощью ползунка Relevance. Предыдущие запросы к программе можно быстро повторить, всего лишь выбрав их из выпадающего списка по кнопке Last searches. Не нужно говорить, как это экономит время.

Что нового в версии 2.3.01

Работать с июльским релизом удобней и проще, чем с предыдущими версиями программы. Процесс индексации улучшен, появилась поддержка поиска по сообщениям почтового клиента Thunderbird, добавлена возможность индексации сообщений mIRC, оптимизирован просмотр сообщений MS Outlook. Теперь SearchInform хранит добавленные для индексации типы файлов в отдельном файле, что даже при переустановке программы позволяет сохранить их поддержку. Оптимизирована организация хранения системных файлов.

Проблемы, решаемые SoftInform Search Technology

Дубли документов

Данная технология уже испытана в проектах, где крайне критична скорость поиска информации. Наверняка она будет полезной в любой базе знаний, аналитической службе или службе техподдержки крупной фирмы, позволяя решить вот какие задачи:

  • Размытость информационного наполнения - уже при вводе документа в базу можно определить, новый ли это документ или дубль.

  • Анализ похожести - сравнить документы в базе будет проще.

  • Быстрый поиск тематически похожих документов с точными результатами.

  • Перспективы. Возможна разработка экспертной системы для обработки входящей корреспонденции и новостей. Сюда же можно отнести решение проблемы спама поисковых машин с помощью дорвеев и проблемы e-mail-спама.

  • Но самым важным нам видится создание поискового движка, который будет искать не только по ключевым словам, но и по похожим веб-документам.

Заключение

Разобрав программу, что называется, по косточкам, мы выделяем пять основных преимуществ SearchInform Professional над большинством аналогичных программ: программа индексирует документы в три-пять раз быстрее многих аналогов - это раз; гораздо шустрее обрабатывает архивы - это два; не имеет ограничения ни на размер создаваемого индекса, ни на объем обрабатываемых документов - это три; обрабатывает практически любые типы документов - это четыре; мгновенно выполняет запрос к огромным поисковым областям - это пять. Кроме перечисленного SearchInform включает все стандартные функции, присущие локальным поисковым системам, а возможность поиска документов, похожих по содержанию на заданный, делает программу уникальной.

Демоверсия продукта работает 30 дней. Рекомендованная цена на продукт: $79. Языки интерфейса: английский и русский. Купить SearchInform можно на Softkey.ru.

Минимальные системные требования:

  • операционная система Windows 95/98/ME/NT/2000/2003/XP/XP 64bit;
  • процессор Intel Pentium 500 МГц;
  • 128 Мб оперативной памяти;
  • 120 Мб свободного места на жестком диске.

Программы в каталоге Softkey.ru:

Ссылки по теме:

Автор статьи: Наталья Сергеева

Отзывы:


Новый отзыв
Ваше имя: *
Ваш E-Mail:
Тема: *
Текст: *
Введите цифры: *

* - поля, обязательные для заполнения.

Ваш отзыв будет опубликован в течение двух-трех дней. Мы оставляем за собой право не публиковать отзывы, которые будут содержать нелитературные выражения и оскорбительные высказывания.

Рубрики статей
Все статьи
Аналитика
Программы
Игры
Интернет
Авторские права
Интервью
События в мире ПО
Рассылки
Новости мира ПО
Статьи: Интервью
Статьи: Мир ПО
Статьи: Программы
Статьи: Интернет
Статьи: Авторские права
Статьи: Игры
Пресс-релизы
Архив выпусков
  «   Июль 2009   »  
Пн Вт Ср Чт Пт Сб Вс
  12345
6789101112
13141516171819
20212223242526
2728293031  
Поиск в архиве

Логин / пароль:
запомнить

Kaspersky

Модель Москвы шароварный мелкий


Написать редактору  | RSSЭкспорт новостей и обзоров


Rambler's
Top100 Rambler's Top100

Разработка компании «Битрикс»
Разработано
«Битрикс»


Copyright © 2001-2009 ЗАО «Софткей»