Художественная культура и искусство Курс лекций по истории искусства Теория машин и механизмов Математический анализ Электротехника и электроника Расчеты электрических цепей Начертательная геометрия Примеры выполнения заданий
контрольной работы
Лекции и задачи по физике Компьютерная  безопасность Информационные системы Получение электрической энергии Атомная физика
Информационные системы Технологии программирования Прогноз развития информационных технологий Мультимедийные технологии Телекоммуникационные технологии Технологии баз данных Геоинформационные системы

Обработка информации

Обработка информации – процессы преобразования формы и (или) содержания документов или данных. Цель этих преобразований – изменение состояния информации, придание ей новых свойств.

Различают техническую и семантическую обработку информации.

Техническая обработка информации – не связанные с анализом содержания действия над формой документов или данных, обеспечивающие возможность их включения в организованные информационные массивы, а также информационный поиск и использование потребителями. Форма, в которой представлены документы или данные, должна быть удобна для их передачи, хранения и использования. Примерами технической обработки могут служить:

• конвертирование – изменение формы представления данных в соответствии с определенными правилами при сохранении содержащейся в них информации. Процесс актуален для создания распределенных электронных массивов (сводных каталогов, полнотекстовых баз данных, электронных библиотек), когда отдельные участники корпоративного проекта работают в различных программных средах;

• трансформирование – перенесение данных с одного носителя на другой (сканирование печатного текста; преобразование цифровых сигналов в аналоговую форму для передачи их по каналам связи; преобразование аналоговых сигналов в цифровую форму для обработки их компьютерными средствами; вывод на печать компьютерного файла);

• форматирование – представление данных в соответствии с принятым форматом; соблюдение правил оформления текста (установка границ страницы и требуемого интервала между строками, формирование абзацев, выравнивание полей, центрирование заголовков; нумерация страниц и т. п.);

• регистрация – запись документов в учетную форму (оформление накладных на реализуемую или приобретаемую литературу; учет входящей и исходящей корреспонденции в офисе и т. п.);

• инвентаризация – составление перечня документов, подлежащих архивному, библиотечному, музейному и иному хранению, в порядке их поступления;

• штрих-кодирование документов – маркировка документов штриховым кодом с целью контроля за их реализацией и использованием;

• перепечатка рукописи после редакторской (авторской) правки.

Семантическая (аналитико-синтетическая) переработка информации – действия над содержанием документов или данных, связанные с анализом, извлечением необходимых сведений, их оценкой, сопоставлением и обобщением. Существует множество видов семантической обработки (переработки) информации. В основе каждого из них лежит информационный анализ – выявление и фиксация данных, актуальных для решения конкретной информационной задачи.

В практике аналитико-синтетической переработки документов широкое распространение получили методы информационного свертывания – сокращения физического объема текста за счет концентрированного изложения и устранения избыточности информации (табл. 10).

Таблица 10

Информационное свертывание документов

Вид информационного свертывания

Результат информационного свертывания

Составление библиографического описания – выявление и фиксация но установленным правилам библиографических сведений о документе, необходимых и достаточных для его идентификации и обшей характеристики

Библиографическое описание

Индексирование – выражение содержания документа или информационного запроса на информационно-поисковом языке

Классификационный(ые) индекс(ы).

Предметная(ые) рубрика(и).

Ключевое(ые) слово(а).

Дескрипторе(ы)

Аннотирование – составление краткой характеристики документа с точки зрения его назначения, содержания, вида, формы и других особенностей

Аннотация


Реферирование – краткое точное изложение содержания документа, включающее основные фактические сведения и выводы, без дополнительной интерпретации и критической оценки

Реферат.

Экспресс-информация

Фактографическое свертывание – выделение (экстрагирование) наиболее информативных фрагментов текста с целью безоценочного изложения отдельных фактов и концепций

Фактографическая справка.

Справочная статья.

Сравнительно-сопоставительная

Таблица.

Дайджест.

Конспектирование – письменное изложение основного содержания текста или выступления

Конспект. Протокол.

Стенограмма

Обзорно-аналитическая деятельность – обобщенная, интерпретированная характеристика какого-либо вопроса (темы, проблемы), подготовленная на основе анализа и синтеза информации, извлеченной из некоторого множества отобранных для этой цели документов

Аналитическая справка.

Библиографический обзор.

Реферативный обзор.

Аналитический обзор.

Свертывание информации обеспечивают следующие методы ее обработки:

• выделение ключевых (несущих основную смысловую нагрузку) слов;

• перефразирование – изменение текста в сторону сокращения его объема;

• групповая характеристика документов, близких по содержанию или формальным признакам;

• экстрагирование – извлечение из текста наиболее информативных фрагментов;

• кодирование – выражение содержания информации при помощи условных обозначений (кодов, индексов, рубрик, искусственных информационно-поисковых языков) и др.

Если правила преобразования информации строго формализованы и разработан алгоритм их реализации, то появляется возможность автоматизировать процесс обработки информации. Автоматизированная обработка информации основывается на том, что преобразование информации по формальным правилам не подразумевает ее осмысления: форма документа (его лексика, грамматика, структура) позволяет отыскивать элементы, выражающие смысл, содержание информационного сообщения.

Идея автоматизированного свертывания текстовой информации базируется на наблюдении, что для каждого документа ключевые слова, наиболее часто встречающиеся в тексте, несут основную смысловую нагрузку, используются для передачи авторской мысли. Разработаны количественные методы оценки семантической значимости отдельных предложений в тексте. Первый из них предполагает количественную оценку семантической значимости отдельных предложений для передачи смысла (основной идеи) текста:

где V – значимость предложения; Nj – число значимых (специфичных для данной предметной области) слов в этом предложении; N – общее число слов в предложении.

Если отбирать наиболее значимые предложения и включать их в квазиреферат (мнимый реферат), то появится возможность «свернуть» текст до оптимального минимума, устранив избыточную информацию, и с достаточной степенью информативности передать его основное содержание.

Второй метод измерения количества информации, содержащегося в каждом из предложений, базируется на гипотезе: чем более важным является для некоторого текста тот или иной термин, тем чаще он встречается в нем. Необходимо произвести частотный анализ текста для определения частоты встречаемости в нем наиболее значимых терминов и понятий. В квазиреферат отбираются те предложения, которые содержат наибольшее количество терминов, чаще других повторяющихся в данном документе.

Аналогичные методы приемлемы и для автоматизированного аннотирования.

Автоматическое индексирование предполагает наличие электронных словарей (основ слов, окончаний и др.), образующих лексический аппарат свертывания и классификационных таблиц. Проводится морфологический анализ текста (или его реферата). Наиболее информативные для данной предметной области слова и словосочетания переводятся на информационно-поисковый язык.

Придание тексту новых качественных и формальных характеристик обеспечивают такие виды переработки информации, как:

• преобразование линейных текстов в гипертекст;

• перевод текста на другой язык;

• редактирование и др.

Например, в процессе редактирования происходит преобразование его содержания – литературное редактирование (корректировка текста, нормализация лексики, нормализация стиля, унификация структуры документа) и формы – техническое редактирование (определение форматов страниц, размещение текстовых блоков, выбор шрифтов для различных элементов документа, создание макета документа для полиграфического воспроизведения).

Компьютерные технологии востребованы при создании гипертекстовых документов, в системах машинного перевода, в редакционной практике (автоматическая рубрикация, форматирование, разметка текста и т. п.).

Для содержательной обработки данных используют различные методы анализа и синтеза информации: числовые расчеты; группировка; систематизация; ранжирование; сравнительно-сопоставительный анализ; обобщение; табличное и графическое представление данных и др.

Предлагается использовать следующую классификацию систем и подсистем КИС. В зависимости от уровня обслуживания производственных процессов на предприятии сама КИС или его составная часть (подсистемы) могут быть отнесены к различным классам: Класс A: системы (подсистемы) управления технологическими объектами и/или процессами. Класс B: системы (подсистемы) подготовки и учета производственной деятельности предприятия. Класс C: системы (подсистемы) планирования и анализа производственной деятельности предприятия.
Технологии искусственного интеллект