понедельник, 27 января 2014 г.

Інформаційно-пошукові системи і мови.

Пошук інформації є однією з основних складових людської діяльності, з ним ми зіштовхуємося щодня: вивчаючи театральну афішу, щоб вибрати цікавий спектакль, підбираючи в розкладі поїздів зручну електричку, перегортаючи телефонну книгу... Людині, яка в силу своєї професії чи захоплень часто зіштовхується з підбором і пошуком якої-небудь тематичної інформації, рано чи пізно (зі зростанням її обсягу) приходиться застосовувати деякі принципи систематизації і класифікації наявних даних, що забезпечують більш зручний і ефективний пошук. Так, у бібліотеках складають картотеку: відомості про книгу за визначеною схемою записуються на картку, туди ж міститься шифр - кілька букв і цифр, по яких можна визначити місце розташування книги (сховище, стелаж, полицю); картки розставляються в алфавітному чи тематичному порядку. Застосування ЕОМ дає більш широкі можливості для роботи з великими масивами інформації.
Трохи історії

Інформаційно-пошукові системи з'явилися досить давно. Теорії і практиці побудови таких систем присвячена досить велика кількість статей, основна маса яких приходиться на кінець 70-х - початок 80-х років. Тобто не можна сказати, що з появою Internet і бурхливим входженням його в практику інформаційного забезпечення, з'явилося щось принципово нове, чого не було раніш. Якщо бути точним, то інформаційно-пошукові системи в Internet - це визнання того, що ні ієрархічна модель Gopher, ні гіпертекстова модель World Wide Web не вирішують проблему пошуку інформації у великих обсягах різнорідних документів. І на сьогоднішній день немає іншого способу швидкого пошуку даних, крім пошуку за ключовими словами. При використанні ієрархічної моделі Gopher треба досить довго блукати по дереву каталогів, поки не зустрінеш потрібну інформацію. Ці каталоги повинні кимсь підтримуватися і при цьому їх тематичне розбиття повинно збігатися з інформаційними потребами користувача. З огляду на анархічність Internet і величезну кількість всіляких інтересів у користувачів Мережі, зрозуміло, що комусь може і не повезти, і в мережі не буде каталогу, що відображає конкретну предметну область.

Аналогічний розвиток подій ми бачимо й у World Wide Web. Розробка нових інформаційних систем для Web не довершена. Причому як на стадії написання комерційних систем, так і на стадії досліджень. Однак, багато проблем, що ставить перед розробниками ІПС Internet не вирішені дотепер. Саме цією обставиною і викликана поява проектів типу AltaVista компанії Digital, головною метою якого є розробка програмних засобів інформаційного пошуку для Web і підбор архітектури для інформаційного сервера Web.
Основні визначення і поняття

Інформаційно-пошукова система (ІПС) - програмна система для збереження, пошуку і видачі цікавлячої користувача (абонента) інформації. Наприклад, документальний масив ІПС Internet - це досить різнорідна інформація, що представлена у виді різних, ніяк неузгоджених один з одним форматів даних. Тут є і текстова інформація, і графічна інформація, і аудіо інформація і т. д. Природно постає питання, як інформаційно-пошукова система повинна з усім цим працювати.

Абонент звертається до ІПС з інформаційним запитом - текстом, що відбиває інформаційну потребу даного абонента, наприклад, його бажання знайти список книг по теорії інформаційного пошуку чи список аптек, у яких можна купити потрібні ліки. Пошук інформації ведеться в пошуковому масиві, що формується (і в міру необхідності обновляється) розробниками чи адміністраторами системи. Елементи пошукового масиву вводяться в інформаційно-пошукову систему на природному (чи близькому до нього) мові, а потім звичайно піддаються індексуванню, тобто перекладу на формальну інформаційно-пошукову мову (ІПМ).

Індексування - вираження центральної теми чи предмета якого-небудь тексту чи опис якого-небудь об'єкта інформаційно-пошуковою мовою.
Основні способи пошуку інформації в традиційних ІПС і ІПС для Internet

У традиційних системах є поняття пошукового образа документа - Под'а. Пошуковий образ документа(ПОД) - текст інформаційно-пошуковою мовою, поставлений в однозначну відповідність документу, що відображає його ознаки, необхідні для пошуку його за запитом. Крім пошукових ознак, що розкривають зміст документа чи, як мінімум, що визначають його тему, ПОД звичайно містить також ідентифікуючі і деякі додаткові відомості (вихідні дані, тип документа, його мова і т.д.).

Одним з популярних засобів перекладу документа на внутрішню мову системи є координатне індексування - присвоєння документу набору ключових слів чи кодів, що визначають його зміст. Можливі два способи індексування: вільне, коли безпосередньо з тексту документа витягуються ключові слова без врахування усіх видозмін їх форм і відносин між ними; і контрольоване, коли в пошуковий образ документа включаються тільки ті слова, що зафіксовані в інформаційно-пошуковому тезаурусі, де зазначені їхні синонімічні, морфологічні й асоціативні відносини.

Тезаурус - спеціально організований нормативний словник лексичних одиниць інформаційно-пошукової і природної мови. Лексичними одиницями ІПМ є дескриптори. Дескриптор ставиться в однозначну відповідність групі ключових слів природної мови, відібраних з тексту визначеної предметної області. Багатозначному слову природної мови відповідає декілька дескрипторів, а декільком синонімічним словам і виразам - один дескриптор. Тезаурус враховує семантичні зв'язки між словами: антоніми, синоніми, гіпоніми (термін, що є частковий випадок іншого, більш загального поняття), гіпероніми (термін, навпаки, що є загальним для ряду інших, часткових понять), асоціації.

Тезаурус і граматика складають інформаційно-пошукову мову.

Таким чином, у традиційних системах існувало розбиття на системи з контрольованим словником і системи з вільним словником. Вільний словник поповнювався автоматично в міру появи нових документів. Однак, на момент актуалізації словник також фіксувався. Актуалізація припускала повне перезавантаження бази даних. У момент цього відновлення перевантажувалися самі документи й відновлювався словник, а після його відновлення проводилась переіндексація документів. Процедура актуалізації займала досить багато часу і доступ до системи в момент її актуалізації закривався.

Тепер уявимо собі можливість такої процедури в анархічному Internet, де ресурси з'являються і зникають щодня. При створенні програми Veronica для GopherSpace передбачалося, що всі сервери повинні бути зареєстровані й таким чином вівся облік наявності чи відсутності ресурсу. Veronica раз на місяць перевіряла наявність документів Gopher і відновлювала свою базу даних ПОД'ів документів Gopher. У World Wide Web нічого подібного немає. Для рішення цієї задачі використовуються програми сканування мережі або роботи-індексіровщики. Розробка роботів - це досить нетривіальна задача, тому що існує небезпека зациклення робота чи влучення на віртуальні сторінки. Усі системи мають свого робота. Робот переглядає мережу, знаходить нові ресурси, приписує їм терміни і розміщує в базу даних індексу. Головне питання полягає в тому, які терміни приписувати документам, звідки їх брати, адже ряд ресурсів взагалі не є текстом. В даний час різні роботи використовують для індексування наступні джерела для поповнення своїх віртуальних словників: гіпертекстові посилання, заголовки (title), заголовка (H1, H2 і т.п.), анотації, списки ключових слів і повні тексти документів, повідомлення адміністраторів про свої Web-сторінки. Для індексування нетекстової інформації використовуються головним чином URL, для новин Usenet і поштових списків - поля Subject і Keywords. Найбільший простір для побудови ПОД'ів дають HTML-документи. Але не треба думати, що всі терміни з перерахованих вище елементів документів потрапляють в їх пошукові образи.

Успіх інформаційно-пошукової системи з погляду швидкості пошуку, визначається винятково архітектурою індексу. Як правило, спосіб організації цих масивів є "секретом фірми" і гордістю компанії.
Ефективність інформаційного пошуку

Ідеальна ІПС повинна видавати документи, змістовно релевантні запиту, і нічого крім них. Однак на практиці це звичайно не досягається, спостерігаються мовчання ІПС (невидача деякої кількості релевантних документів) і шум (видача зайвих документів). Масив документів розділяється на видані і невидані - по одному критерії, і на релевантні і нерелевантні - по іншому.

Співвідношення кількості документів у кожній з цих груп визначає ефективність інформаційного пошуку. В ідеальної ІПС повнота і точність= 100%, а шум = 0 (знайдені всі документи і жодного зайвого). У реальних системах коефіцієнт повноти досягає 70%, а коефіцієнт точності пошуку коливається в дуже широких межах, іноді знижуючи до 10%. Величини цих коефіцієнтів залежать від цілого ряду факторів: як внутрішніх властивостей пошукової системи (обсягу і характеристик інформаційного масиву, інформаційно-пошукової мови, критерію видачі), так і від багатьох "зовнішніх" умов: ступеня специфічності інформаційних запитів, здатності користувача правильно сформулювати свої інформаційні потреби природною мовою, правильності побудови конкретного запиту, а також від суб'єктивного представлення користувача про те, що таке потрібна йому інформація. Через помилки і неточності, що виникають на кожнім з етапів роботи як користувача, так і системи, результати можуть сильно відрізнятися від того, що хотів одержати користувач, звертаючи до ІПС.

Існує поняття стійкість пошуку - характеристика зміни повноти і точності при малих (семантично незначних) змінах запиту. Середні значення повноти і точності для конкретної системи звичайно підраховують шляхом тестування її на еталонній базі документів.

В залежності від вимог до кількості і якості видаваної ІПС інформації обираються різні критерії видачі. Якщо важливо не упустити потрібну інформацію (патентна експертиза) - потрібно підвищити повноту, якщо треба скоротити обсяг видаваної інформації (бібліотека) - варто поліпшити точність.

Англійським ученим С.Клевердоном виявлена зворотна залежність між повнотою і точністю пошуку в одній системі (при використанні тієї самої інформаційно-пошукової мови), тобто підвищення точності веде до збільшення шуму і, навпаки, при зменшенні шуму знижується точність. Поліпшити ці показники одночасно можна, тільки вносячи зміни в інформаційно-пошукову мову, роблячи граматику і тезаурус більш лінгвістично розвитими. При цьому досягнення максимальне можливої повноти пошуку зв'язано з величезними складностями. Останні 5-10% вимагають такого ж ускладнення мовного апарата системи, як і попередні 90-95%, що спричиняє збільшення трудомісткості обробки вхідної інформації і часу пошуку.
Інформаційно-пошукова мова системи

Індекс - це тільки частина пошукового апарату, причому не видна для ока користувача. Другою частиною цього апарата є інформаційно-пошукова мова. ІПМ дозволяє сформулювати запит до системи в досить простій і дохідливій формі. Уже давно залишилася романтика створення ІПМ, як природної мови. Саме цей підхід використовувався в системі Wais на перших стадіях її реалізації. Звичайно фраза розбивається на слова, з цього списку віддаляються заборонені і загальні слова, іноді виробляється нормалізація лексики, а потім усі слова зв'язуються або логічним AND, або OR. У такий спосіб запит типу:

>Software that is used on Unix Platform

буде перетворений у:

>Unix AND Platform AND Software

що буде означати приблизно наступне: "Знайди всі документи, у яких слова Unix, Platform і Software зустрічаються одночасно".

Можливі і варіанти. Так у більшості систем фраза "Unix Platform" буде пізнана як ключова фраза, і не буде розділятися на окремі слова. Взагалі говорячи, і всі три слова можуть бути розпізнані як одна ключова фраза. Інший підхід полягає в обчисленні близості між запитом і документом. Крім звичайного набору AND, OR, NOT, можна використовувати NEAR. Останній оператор дозволяє організувати контекстний пошук. Всі документи в системі розбиті на поля, тому в запиті можна вказати в якій частині документа користувач хоче побачити ключове слово (у посиланні, заголовку і т.п.). Можна також задати поле ранжирування видачі і критерій близості документів запиту.

Головна задача інформаційно-пошукової системи - це пошук інформації релевантної інформаційним потребам користувача. Слово релевантність означає відповідність між бажаною і дійсно одержуваною інформацією. Релевантність можна ще представити як міру близькості між реально отриманими документами і тим, що варто було б одержати із системи. Виникає дві задачі, які варто вирішити: представлення інформації в системі і формулювання інформаційних потреб користувача. Ці дві проблеми тісно зв'язані один з одним. В документаціях багатьох інформаційно-пошукових систем Internet (Yahoo, OpenText і ін.) сказано, що система реалізує запит типу "знайди схоже". Але що значить ця фраза в реальності? Як обчислити цю саму подібність?
Традиційні інформаційно-пошукові мови і їхні модифікації

Найбільш розповсюдженим ІПМ є мова, що дозволяє скласти логічні вираження з набору термінів. При цьому використовуються булеві оператори AND, OR, NOT. Така схема досить проста, і тому найбільше широко застосовується в сучасних інформаційно-пошукових системах. Але ще 20 років тому були добре відомі і її недоліки.

Оператор AND може дуже сильно скоротити число документів, що видаються на запит. При цьому всі буде дуже сильно залежати від того, наскільки типовими для бази даних є пошукові терміни. Оператор OR навпаки може привести до невиправдано широкого запиту, у якому корисна інформація загубиться за інформаційним шумом. Для успішного застосування цієї ІПМ варто добре знати лексику системи і її тематичну спрямованість. Модифікацією булевого пошуку є зважений булевий пошук. Ідея такого пошуку досить проста. Вважається, що термін описує зміст документа з якоюсь точністю, і цю точність виражають у виді ваги терміна. При цьому зважувати можна як терміни документа, так і терміни запиту. Запит може формулюватися на ІПМ, описаній вище, але видача документів при цьому буде ранжируватися в залежності від ступеня близькості запиту і документа. При цьому вимір близості будується таким чином, щоб звичайний булевий пошук був частковим випадком зваженого булевого пошуку.

Мови типу "Like this"

При уважному розгляді зваженого пошуку виникає природне бажання взагалі обійтися без логічних коннекторів і вимірювати близість документа і запиту якими-небудь іншими критеріями. Найбільш простою моделлю цього типу є лінійна модель індексування і пошуку, коли близість документа і запиту розглядається як кут між ними. У цьому випадку підраховується sin кута, що одержують як скалярний добуток двох векторів. У відповідності зі значенням міри близості відбувається ранжирування документів при видачі посилань на них користувачу. Взагалі говорячи, скалярний добуток не дуже гарно підходить для інформаційно-пошукових систем Internet, тому що довжина запиту звичайно невелика. Це в традиційних системах існували спеціальні служби, що налагоджували довгі запити, а в Internet такі служби тільки народжуються. Тому реально застосовуються інші міри близькості, але принцип залишається той же: спочатку обчислюється міра, а потім відбувається ранжирування.

Розглянутий підхід дає можливість більш м'якого розширення й уточнення запитів, але він також не гарантує високих показників релевантності у випадку вибору невдалої лексики.

Пошук у нечітких множинах

При цьому типі пошуку весь масив документів описується як набір нечітких множин термінів. Кожен термін визначає деяку монотонну функцію приналежності документам документального масиву. Коли запитується AND, те це інтерпретується як мінімум із двох функцій, що відповідають термінам запитів, OR - як максимум, NOT - як 1-<значення функції>. Відповідно до отриманих значень результат пошуку також ранжирується, як і у випадку з пошуком по мірах близькості.

Варто відразу сказати, що цей метод пошуку використовується тільки в дослідницьких системах і мало розповсюджений.

Граничні моделі

Як було видно з попереднього викладу, на кінцевому етапі пошуку вибірка знайдених документів ранжирується. Але, зовсім очевидно, що міри близості чи пошук у нечітких множинах приводить до ранжирування всього масиву документів у базі даних. Сучасні інформаційно-пошукові системи Internet мають бази даних тільки індексів, що займають террабайти. Ранжирувати весь такий масив - це просто божевільна справа. Тому застосовуються граничні моделі, що задають граничні значення для документів, що видаються користувачу.

Кластерна модель і ймовірносна модель інформаційного пошуку

В кластерній моделі може використовуватися два підходи. Перший полягає в тому, що масив заздалегідь розбивається на підмножини документів і при пошуку враховується близість запиту деякій підмножині. В іншому підході кластер "накручується" навколо запиту і найближчих до нього термінів. Найбільше часто ця модель застосовується в системах, що уточнюють запит за релевантністю знайдених документів.

При ймовірносній моделі обчислюється ймовірність належності документа до класу релевантних запиту документів. При цьому використовується ймовірність належності термінів запиту кожному з документів бази даних.

Корекція запиту за релевантністю

Багато систем застосовують механізм корекції запиту за релевантністю. Це означає, що процедура пошуку носить інтерактивний і ітеративний характер. Після проведення первинного пошуку користувач відзначає з усього списку знайдених документів релевантні. На наступних ітераціях система розширює/уточнює запит користувача термінами з цих документів і знову виконує пошук.

У завершенні хотілося б звернути увагу читачів ще на один аспект вибору інформаційно-пошукової системи. Це профіль її баз даних. Можна заперечити, що всі системи індексують одне і теж - масив документів Internet. Але роблять вони це по-різному. Дуже важливий профіль системи, який задається розбивкою документів по темах і словником індексування, а також способом його підтримки

Комментариев нет:

Отправить комментарий