Художественная культура и искусство Курс лекций по истории искусства Теория машин и механизмов Математический анализ Электротехника и электроника Расчеты электрических цепей Начертательная геометрия Примеры выполнения заданий
контрольной работы
Лекции и задачи по физике Компьютерная  безопасность Информационные системы Получение электрической энергии Атомная физика
Информационные системы Технологии программирования Прогноз развития информационных технологий Мультимедийные технологии Телекоммуникационные технологии Технологии баз данных Геоинформационные системы

Поиск информации – процесс выявления и отбора по заданным содержательным и формальным признакам документов или данных из информационных потоков или массивов.

Проблема поиска информации является наиболее проработанной в теории и практике информатики.

В процессе использования информации для выполнения разнообразных задач члены общества (художники, писатели, ученые и т. п.) выполняют информационный поиск – действия, методы и процедуры, позволяющие осуществлять отбор определенной информации из массива данных, удовлетворяя тем самым свою информационную потребность.

Характеристики предметной области, значения которых необходимо установить для выполнения поставленной задачи в практической деятельности, называют информационной потребностью.

Информационный поиск обеспечивается информационно-поисковой системой (ИПС) – совокупностью средств и методов, организованной в функциональную систему, выполняющую хранение и поиск информации. Для ИПС важным является информационный запрос, поступающий от потребителя, – текстовое выражение информационной потребности.

При информационном поиске приходится иметь дело с тремя основными понятиями: элементами (единицами) информации, характеристиками (свойствами, характеризующими информацию) и связями между характеристиками и элементами информации. Элементами информации может быть документ, описание документа, реферат, адрес документа и т. п. Характеристика – это свойство документа, его поисковый признак, дескриптор, ключевое слово, индекс и т. д. В задачах поиска предполагается отыскание элемента или элементов, связанных с заданной совокупностью характеристик, и наоборот.

Суть информационного поиска заключается в выделении в некотором множестве (информационном массиве) подмножества релевантных документов или данных, отвечающих запросу потребителя. Информационный поиск является реакцией на информационную потребность пользователя, выраженную в информационном запросе. Процесс информационного поиска на самом общем уровне описывается следующим алгоритмом:

1. Формулировка запроса, выделение в его структуре основных поисковых признаков: ключевых слов и понятий, предметов и аспектов поиска.

2. Идентификация данных: сравнение поисковых признаков с данными в информационном (поисковом) массиве.

3. Отбор: проверка выявленного подмассива документов или данных на соответствие заданным критериям поиска.

4. Структурирование (упорядочение) документов или данных в соответствии с логикой запроса.

В больших поисковых массивах непосредственный перебор всех элементов информации невозможен, поэтому информационный поиск осуществляется по краткому описанию элемента информации (например, содержания документов) – поисковому образу. Поисковый образ – текст, состоящий из лексических единиц информационно-поискового языка, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска. Поисковый образ, выражающий основное смысловое содержание документа, называют поисковым образом документа (ПОД). Поисковый образ, выражающий смысловое содержание информационного запроса, является поисковым образом запроса (ПОЗ).

Информационный поиск является сложным процессом, включающим множество процедур семантической обработки информации и запросов, от которой зависит его эффективность. Это достигается с помощью формулирования поискового предписания, т. е. текста, включающего поисковый образ запроса и указания о логических операциях, подлежащих выполнению в процессе информационного поиска.

Информационный поиск заключается в сравнении поискового образа документа с поисковым предписанием. При достаточно хорошем их совпадении считается, что документ, имеющий данный поисковый образ, удовлетворяет данному информационному запросу. Для объективной оценки соответствия поискового образа поисковому предписанию используются специальные критерии, называемые критериями выдачи. Критерий выдачи – совокупность признаков, по которым определяется степень соответствия поискового образа документа поисковому предписанию и принимается решение о выдаче или невыдаче данного документа в ответ на информационный запрос.

Соответствие полученной информации информационному запросу называют релевантностью. В тех случаях, когда потребитель информации нечетко выражает свои информационные потребности в информационном запросе, релевантная информация не будет в полной мере соответствовать информационным потребностям. Говорят, что информация не обладает свойством пертинентности. Таким образом, соответствие полученной информации информационной потребности называется пертинентностью.

При описании документов, поступающих в ИПС, и составлении информационных запросов возникает проблема сжатия информации с сохранением основного смыслового содержания текстов. Эта проблема относится к категории семантических и сводится, прежде всего, к построению искусственных информационно-поисковых языков. По ГОСТ 7.74 Информационно-поисковый язык (ИПЯ) – формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Выделяют следующие виды ИПЯ (см. рисунок 19).

 


Рис. 19. Классификация ИПЯ

Процесс выражения основного смыслового содержания элементов информации (составления поискового образа) с помощью информационно-поискового языка называется индексированием.

В зависимости от используемого ИПЯ, различают виды индексирования.

Классификационное индексирование (систематизация) – присвоение данным или документам классификационных индексов в соответствии с правилами какого-либо классификационного ИПЯ.

Предметное индексирование – индексирование предметного содержания документов.

Свободное индексирование – индексирование, технология которого не предусматривает замену ключевых слов текста в соответствии с рекомендациями специального словаря.

Координатное индексирование – индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Фактографическое индексирование – индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (фактов).

Автоматизированное индексирование – индексирование, технология которого предусматривает использование формальных процедур, осуществляемых с помощью вычислительной техники, и включает применение интеллектуальных процедур при принятии основных решений о составе поискового образа.

Автоматическое индексирование: индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники.

Качество индексирования оценивается характеристиками полноты и специфичностью индексирования. Полнота индексирования – степень отражения в поисковом образе аспектов содержания документа и (или) запроса. Специфичность индексирования – характеристика качества индексирования, определяемая отношением числа фактографических сведений и специфических терминов, отражающих содержание документа, к числу неспецифических общенаучных терминов в поисковом образе.

На практике наиболее часто встречаются три типа поисковых запросов.

Адресный запрос направляется для получения сведений о наличии в данном хранилище определенного издания. При этом задается библиографическое описание этого издания. Запрос назван адресным потому, что библиографическое описание является достаточным для нахождения адреса хранения требующегося документа.

Тематический запрос – это заявка на подбор документов по определенной теме.

При фактографическом запросе требуются справки типа консультации, например расшифровка условных обозначений, время жизни того или иного человека, значение физико-химических констант и т. п.

Реальные ИПС обычно специализируются на удовлетворении одного (иногда нескольких) типа запросов различными видами информационного поиска, отличающимся целями, средствами и объектом поиска.

Сущность задачи адресного поиска заключается в следующем. Документ рассматривается как объект, адрес которого в хранилище задан. Чтобы найти нужный документ, не нужно обращаться к его содержанию, оценивать по существу, а достаточно удостовериться, что заданный в запросе адрес соответствует адресу, проставленному на документе. Аналогичными задачами являются задачи поиска слов в словаре, жителей в городе по адресу и т. д. Для обеспечения адресного поиска нужно расположить объекты в хранилище в строго определенном порядке, чтобы каждый объект имел свой точный адрес. Этот порядок должен быть известен человеку, ведущему поиск. Типичным средством адресного поиска в библиотеках являются алфавитные и номерные каталоги и указатели.

Адресный поиск используется в ЭВМ, где каждая ячейка запоминающего устройства имеет свой адрес. Процесс обработки информации с помощью ЭВМ сводится к чередованию этапов адресного поиска информации, записанной в тех или иных ячейках, и этапов арифметических или логических операций над записями.

В ЭВМ применяются метод последовательного перебора, метод деления на части, ассоциативно-адресный метод и др. Метод последовательного перебора и метод последовательного деления на части аналогичны, по существу, методам организации и поиска материала в библиотечных каталогах. Адресный поиск является одним из наиболее распространенных видов поиска.

Под семантическим поиском понимается поиск элементов знания, фактов, концепций. Он осуществляется в соответствии с критерием релевантности, на базе которого определяется соответствие между содержанием информационного сообщения и содержанием запроса. Принципиальная разница между адресным и семантическим поиском состоит в том, что при адресном поиске сообщение рассматривается как материальный объект, а при семантическом поиске – как носитель знания, т. е. с точки зрения содержания. Адресный поиск выходит за пределы информационного поиска, семантический же поиск всегда является информационным. Семантический поиск требует тематического и фактографического запросов. Удовлетворение такого рода запросов невозможно без обращения к смыслу сообщения. Примерами семантического поиска являются поиск документов, относящихся к данной области знаний или к данной научной проблеме, проверка патентоспособности какого-либо изделия.

Документальный поиск – это информационный поиск, при котором объектами поиска являются документы. Документальный поиск с использованием ЭВМ называется автоматизированным документальным поиском.

Библиографический поиск – это документальный поиск, осуществляемый в библиографической базе данных с целью нахождения библиографического описания или других адресов первичных документов. Когда потребителю информации требуются сведения о конкретном факте, появляются фактографические запросы, для удовлетворения которых предназначен фактографический поиск.

Фактографический поиск – это информационный поиск, имеющий целью нахождение фактографических описаний, релевантных полученному запросу. Фактографический поиск имеет ряд отличий от документального поиска. Документальная система выдает множество документов, релевантных запросу, предоставляя потребителю выбор фактических данных из этих документов. Фактографические ИПС избавляют потребителя от этой процедуры, направляя ему описание интересующего его факта.

Информационный поиск по разовым информационным запросам в ранее накопленном информационном массиве называют ретроспективным поиском. Поиск производится во всем массиве элементов информации по данной тематике.

Информационный поиск, при котором информационный запрос формируется с помощью булевских операторов, называют булевским поиском.

В современных ИПС информационный поиск, как правило, реализуется с использованием средств вычислительной техники, такой поиск информации называется автоматизированным информационным поиском. Дадим определения основным видам автоматизированного информационного поиска.

Под поиском на естественном языке понимают автоматизированный информационный поиск, для которого информационный запрос формулируется на естественном языке.

Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста, является полнотекстовым поиском.

Эффективность информационного поиска в большей степени зависит от сформулированного информационного запроса, который должен с максимальной полнотой и точностью отражать информационную потребность пользователя. Для этого используют диалоговый режим информационного поиска. Автоматизированный информационный поиск, при котором пользователь автоматизированной системы может формулировать информационные запросы в диалоговом режиме, корректировать их в процесс поиска и получать промежуточные результаты называют диалоговым поиском.

Существует и пакетный режим поиска, который реализуется с помощью пакетного поиска, т.е. автоматизированного информационного поиска, при котором информационные запросы накапливаются в специальном массиве для последующей совместной обработки.

Оценка качества информационного поиска осуществляется на основе семантических показателей, т. е. его способности находить элементы информации релевантные информационному запросу. Результаты информационного поиска оцениваются по следующим семантическим показателям:

Коэффициент полноты – отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.

  (1)

Коэффициент точности – отношение числа найденных релевантных к общему числу документов в выдаче.

  (2)

Коэффициент шума – отношение числа нерелевантных документов в выдаче к общему числу документов в выдаче (обратный к коэффициенту точности).

  (3)

Коэффициент ложной выдачи – отношение числа нерелевантных документов в выдаче к общему числу нерелевантных документов в базе данных.

Коэффициент молчания – отношение числа невиданных нерелевантных документов к общему числу релевантных документов в базе данных.

Формулы для расчета этих показателей выведены из таблицы, представляющей собой разбиение информационного массива по признакам релевантности данному информационному запросу.

В таблице используются следующие обозначения: А – множество релевантных и выданных документов; В – множество нерелевантных, но выданных документов; С – множество релевантных, но не выданных документов; D – множество нерелевантных и невиданных документов.

Таблица 11

Документы

Релевантные

Нерелевантные

Сумма

Выданные

А

В

А+В

Невиданные

С

D

C+D

Итого

А+С

B+D

A+B+C+D

Предлагается использовать следующую классификацию систем и подсистем КИС. В зависимости от уровня обслуживания производственных процессов на предприятии сама КИС или его составная часть (подсистемы) могут быть отнесены к различным классам: Класс A: системы (подсистемы) управления технологическими объектами и/или процессами. Класс B: системы (подсистемы) подготовки и учета производственной деятельности предприятия. Класс C: системы (подсистемы) планирования и анализа производственной деятельности предприятия.
Технологии искусственного интеллект