На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Рассылки 
 
MS O365 test

Data Extractor 3.3: получить данные с веб-страницы, файла или домена

06.04.2017 / Программы / Екатерина Сергеева

Data Extractor поможет получить необходимую информацию с файлов, веб-страниц и текста. Программа может сама переходить по ссылкам на сайте и получать со страниц запрашиваемые данные. Имеется три способа определения объекта для извлечения: на базе текста, шаблона регулярного выражения и Java Script. Уже имеется несколько встроенных правил, которые получают ссылки, электронные адреса, изображения и данные форм с веб-страниц или файлов. Создавайте собственные правила или редактируйте уже имеющиеся для поиска того, что нужно именно вам. Полученные результаты можно отсортировать и сохранить в нужном формате.

Надо сказать, что эта программа привлекла меня своим претенциозным и многообещающим заявлением в ее анонсе о том, что она способна извлечь любую информацию с любых файлов и веб-страниц, то есть, по сути, чуть ли не откуда угодно. Да это же буквально мечта, и поэтому невозможно было не удовлетворить свое любопытство и не попытаться что-то с ней сделать. Благо что все удобства для этого предоставлены - речь, конечно же, о триал-версии программы, в которой есть ограничение на сохранение результатов, их копирование, распечатку и экспорт. Текущая версия Data Extractor заключена в цифре 3.3. Потребуется предварительная установка.

Первый же взгляд на программу после ее запуска не слишком обнадеживал: передо мной предстало примитивного вида окно в стиле программ начала 2000-х годов, да еще и с надписями на английском. Но в принципе не так важно, как она выглядит, если способна выполнять заявленные действия. Давайте проверим.

Три закладки определяют всю схему использования программы: Where to Extract (откуда извлекать), What to Extract (что извлекать) и Extraction Results (результаты извлечения). Задав всю конфигурацию анализа на первых двух закладках, вас автоматически перенесет на третью, причем произойдет это очень быстро. Скорость работы Data Extractor не соответствует ее виду и весьма радует.

Data Extractor может брать информацию прямо во время того, как вы будете "серфить" Интернет. Делать он это будет до тех пор, пока вы не нажмете кнопку Stop Extracting. Правда, в этом случае работает он только с совсем уж рудиментальным браузером - Internet Explorer, что, конечно, не очень удобно, но лучше, чем ничего. Но в общем возникает вопрос: а какого рода данные может извлекать Data Extractor?

Ну начнем с того, что стоит немного разочароваться, но это весьма ожидаемо: все-таки Data Extractor сможет извлечь не все что угодно, но достаточно много чего при умелом использовании. Ведь, по сути, получить он может любую информацию, способ изъятия которой вы сможете описать Java-скриптом. Это не единственный способ задания объекта поиска, но самый гибкий и продвинутый. Так что если вы не понаслышке знакомы с JavaScript, то вам больше всех пригодится именно этот метод - с помощью скриптов (нужно переключиться в HTML Webpage Script). Для управления самой программой предлагается ряд команд JavaScript, подробнее о которых можно узнать из справки. Если есть затруднения с этим языком, то можно попробовать обратиться за помощью в саму компанию iconico.

На другую чашу весов можно положить самый простой способ - извлечение какого-то текста или набора символов. К примеру, это можно произвести просто из текста, добавленного в поле для ввода в самой программе. Конечно, с задачей найти какое-то простое словосочетание в тексте справится любой более-менее продвинутый редактор, поэтому этот аспект применения Data Extractor заслуживал бы наименьшего внимания, если бы не несколько опций. Например, для неточного текстового поиска (Fuzzy Search) она звучит как "лимит ошибок" (Defect Limit). Разберем, что это значит.

Допустим, мы указали слово "softkey" и запустили извлечение со страницы www.softkey.ru при параметре Defect Limit, равном трем. Будут найдены все слова, которые получаются, если заменять во введенном максимум три символа. То есть, к примеру, будут выведены все буквосочетания, где есть "soft". Но вот "okey" почему-то найдено уже не будет, видимо, непоследовательный порядок тех же букв в счет не идет.

И, наконец, мы подошли к последнему способу, самому срединному. То, что нужно извлечь, можно описать в виде шаблона, состоящего из регулярных выражений, словарь которых можно просмотреть по данной ссылке.

Второй вопрос: откуда Data Extractor может извлекать данные? Ответим и на него. Data Extractor 3.3 может получить информацию из следующих источников:

  • введенного текста;
  • с веб-страниц, по которым вы будете переходить в браузере IE;
  • с любых файлов, но эффективен Data Extractor будет с текстовыми, HTML, двоичными (исполняемые, изображения и сжатые файлы);
  • с любых URL, причем возможен автоматический переход по всем ссылкам, ведущим на страницы данного домена;
  • из папок, в которые можно включить подпапки и задать маску файлов, которые будут проанализированы.
  • Поддерживается множественное сканирование одновременно файлов и URL. Data Extractor сам будет переходить по указанным страницам - открывать их вручную не придется.

    Любые адреса и файлы, которые можно поместить в один список, могут быть одновременно проанализированы Data Extractor, и они никак не будут друг другу мешать. Файлы добавляются простым выбором в диалоговом окне, ссылки - простым вводом адреса. Если файлов в каталоге много, то выбираем пункт Extract from the Contents of a Folder и будет просканировано содержимое выбранной папки.

    Не слишком понятно назначение опции смены выбора файлов с Text and HTML files на Binary Data files. Судите сами: если производится сканирование папки с множеством файлов в ней, то все они будут проанализированы независимо от значения данной опции. Если же мы добавляем файлы вручную, то смысла в этой опции не будет по определению.

    Когда извлечение будет окончено, настанет время третьей закладки под названием Extraction Results. Там будут выведены все итоги и прописано, сколько результатов получено с каждого объекта, указанного на шаге Where to Extract. Но нельзя определить, какой конкретно результат откуда именно получен, что может усложнить распознавание источника. Результаты можно копировать, сортировать, экспортировать в MS Excel, сохранять, распечатывать и удалять повторяющиеся, освобождая перечень от дубликатов.

    Очень трудно дать такому программному средству какую-либо оценку. Обращено внимание на него было не по необходимости, а лишь из любопытства. Кому-то его рекомендовать тоже очень сложно. Лично у меня необходимости в Data Extractor нет, однако это не значит, что для кого-то этот продукт может стать палочкой-выручалочкой. Так что в целом можно сказать, что эта программа будет полезна всем тем, кто нуждается в получении информации различного рода с текста, ресурсов Интернета, некоторых файлов. Возможно, это разработчики, программисты, создатели сайтов и скриптов.

    Программа оставила неоднозначное, но в целом хорошее впечатление. С одной стороны, она делает все, что в ней заявлено, выдает какие-то результаты своих поисков, пусть те иногда выглядят не слишком эстетично. Но вот направления применения и внешний вид вызывают вопросы. Маленькие неудобства присутствуют в использовании этого интерфейса, который уже давно нельзя назвать дружественным пользователю. Кнопки помощи и иного информационного сопровождения не срабатывают, но в качестве альтернативы можно воспользоваться этой страницей на сайте разработчика. Приобрести программу можно в онлайн-супермаркете Softkey. Цена начинается от $29,5.

    Уже можно сказать, что Data Extractor наиболее полезен будет в следующих случаях: когда невозможно получить нужную информацию каким-то другим, более стандартным способом; когда требуемых для извлечения данных слишком много; когда трудно визуально или вручную найти требуемую информацию. Стоит предположить, что самые распространенные случаи применения Data Extractor должны были быть отражены в его встроенных правилах. Итак, в Data Extractor уже включены следующие правила для извлечения:

  • Extract Emails from Webpages;
  • Extract Image details from Webpages;
  • Extract URLs from Webpages;
  • Extract Form Field details from Webpages;
  • Extract Emails Address from Files;
  • Extract Fully Typed Internet URLs from Files;
  • Extract U.S. Phone Numbers from Files.
  • Для файлов правила заданы шаблонами регулярных выражений, для сайтов - скриптами. Можно создавать свои правила и добавлять их в этот список под собственными именами.

    С помощью этих уже имеющихся правил очень быстро можно получить полный список ссылок со всего домена или отдельной страницы (включайте/отключайте опцию Follow all webpage links in the same domain and keep extracting). С e-mail не всегда удавалось получить ожидаемый результат, но можно вывести данные об изображениях, включая информацию о размере, ссылке, объеме файла и других свойствах. То же самое касается вывода данных о полях для ввода данных на странице, включая скрытые поля. В случае картинок не очень ясно, как работает имеющееся в программе окно предпросмотра. В нем не отображается выделенный пункт списка полученных результатов извлечения.


    Ссылки по теме:

    Автор статьи: Екатерина Сергеева


    Рубрики статей
    Все статьи
    Аналитика
    Программы
    Игры
    Интернет
    Авторские права
    Интервью
    События в мире ПО
    Рассылки
    Новости мира ПО
    Статьи: Мир ПО
    Статьи: Программы
    Статьи: Игры
    Архив выпусков
      «   Ноябрь 2018   »  
    Пн Вт Ср Чт Пт Сб Вс
       1234
    567891011
    12131415161718
    19202122232425
    2627282930  
    Поиск в архиве

    Логин / пароль:
    запомнить




    Наши партнеры:

     САПР и графика



    Написать редактору  | RSSЭкспорт новостей и обзоров


    Rambler's
Top100 Rambler's Top100

    Разработка компании «Битрикс»
    Разработано
    «Битрикс»


    Copyright © 2001-2018 ЗАО «Софткей»