Деректер құрылымы мен сараптық жүйенің модулі

Автор работы: Пользователь скрыл имя, 25 Апреля 2014 в 09:46, курсовая работа

Краткое описание

Жұмыстың маңыздылығы қазіргі кездегі қолданылып жүрген білімді тестілеу жүйесі, алған білімнің нақты деңгейін бағалай алмағандықтан, келесі талаптарға сай, білімді тестілеу жүйесінің жаңа түрінде қажеттілік туындады:
• нәтижені нақты бағалау;
• пайдаланудағы қарапайымдылық;
• таңдаудан әлде шешуден қорғаныс.

Содержание

Кіріспе 3
1. Есептің мақсатын анықтау 6
1.1 Тестілеудің сараптық жүйесін құрудағы негізгі түсініктер 11
1.2. Қазіргі кездегі тестілеу жүйесінің жағдайы және білімді тексеру 13
1.3.Табиғи тілдің семантикалық-бағытталған талдауының ерекшеліктері 18
2. Білімді тестілеудің сараптық жүйе жұмысының алгоритмі мен негізгі қағидалары 31
2.1. Білімді тестілеудің сараптық жүиесінің көмекші программасы 41
2.2. Тестілеудің сараптық жүйесінің функционалды - құндылықтық талдауы 48
3.Деректер құрылымы мен сараптық жүйенің модулі 60
3.1 Деректер базасын ұйымдастыру 61
3.2. Ішкі құрылымдар мен программалық модулдер 69
Қорытынды 72
Әдебиеттер тізімі

Прикрепленные файлы: 1 файл

Дип.-Тестілеудің-сараптық-жүйесі.doc

— 672.50 Кб (Скачать документ)

Жоғарғы тұжырымдарға жүгінсек табиғи тілді талдау мәселесінде осы еңбекте утилитарлық тәсілді пайдаланған жөн.

1.3.2 Утилитарлық тәсіл шеңберінде табиғи тілді өңдеу табиғаты.

Табиғи тілді өңдеудің екі түрі, екі концепциясы бар:

  • Жеке ұсыныстар үшін;
  • Интерактивті диалог жүргізу үшін.

Табиғи тілді өңдеу бұл ЭЕМ табиғи тілде қатынастықты қамтамас ету, компьютерлік-тиімді механизмдерді зерттеу және құру.

Зерттеу объектілері:

  • табиғи тілдердің өздері;
  • ТТ пайдалану адамдар арасындағы қатынас, және адамның ЭЕМ қатынастық.

Зерттеу мақсаты – ТТ компьютерлік-тиімді модельдер коммуникацияларын құру. Мақсаттың осы түрі NLP (Natural Language Processing) ТТ зерттейтін пәндер мен дәстүрлі лигнвистикадан айрықшанады да, ИИ саласына жатқызылады. NLP мәселесімен екі пән айналысады: лингвистика мен  когнитивті психология.

Дәстүрге жүгінсек лингвистер ТТ формальды, далпы, құрылымдық модельдерін құрумен айналасқандықтан, тілдік зандылықтар мен жалпылылыққа көп көңіл бөлген.  Ал оның тәжірбиеде пайдалануының компьютерлік тиімділігіне мән бермеген. Нәтижесінде лингвистикалық модельде тілдің өзі сипатталып, оның пайда болу, тану механизмі қарастырылмаған еді. Мысал ретінде Хомскийдің грамматикасын келтіруге болады, табиғи тілді компьютерде тану тәжірбиеде мүмкін болмады.

Ал когнитивті психологияның мақсаты тілдің құрылымдық моделдеуінде емес, ал оның пайдалануында. Бұл саланың мамандары компьютерлік тиімділікке де көп көңіл бөлмейтін.

NLP жалпы және қолданбалы  болып бөлінеді. Жалпы NLP мақсаты – компьютерлік-тиімді адамның тілін пайдалану моделін өңдеу, құру. Чарняк, Шенк, Карбонелл және т.б еңбектеріне жүгінсек, негізінде мәтіндерді жалпы түсіну элементі жатыр.

Жалпы NLP  нақты дүние туралы білімді қажет етеді, сондықтан да жұмыстың орасан зор бөлігі сол білімді алу, қолдану және тануға, табиғи тілде берілетін хабарды қолдануға арналған. Қазіргі кезде ИИ осындай  мәселелерді шешуге даму деңгейі жеткіліксіз, ал іске қосылған жүйелер экспериментальды болып келеді, өйткені олар табиғи тілде таңданып алынған үлгілермен ғана жұмыс істеп келе жатыр.

Қолданбалы NLP модельдеуде ісі жоқ, оның басты мақсаты табиғи тір арқылы ЭЕМ адаммен қатынасты орнату. Бұл жағдайда енгізілген сөздің маңыздылығына қарамай, сол ЭЕМ шығарылған ақпараттың пайдаланушыға тигізетін тиімділігіне қарайды (сараптық жүйенің интерфейсі). Осындай жүйелерде ТТ түсінумен қатар, қателерді табу және оларды жөндеу маңызды болып келеді.

Табиғи тілді өңдеудегі негізгі мәселе

NLP-нің негізгі мәселесі  тілдің біркелкіліксіздігі.  Біркелкісіздіктің  бірнеше түрлері бар:

  • Синтаксистік (құрылымдық) біркелкісіздік:  Time flies like an arrow сөйлемі ЭЕМ түсініксіз, әңгіме  бұнда ұшып бара жатқан уақыт әлде жәндік туралы ма белгісіз, flies сөзі етістікпе әлде зат есімбе.
  • Мағыналық біркелкісіздік:The man went to the bank to get some money and 
    jumped in сөйлемінде, bank сөзі банкті және жағалауды білдіреді.
  • Септілік біркелкісіздік: He ran the mile in four minutes/He 
    ran the mile in the Olympics сөйлемінде in предлогы уақытты да, мекен жайды да білдіреді, әр түрлі қатынас түрінде.
  • Референциальды біркелкісіздік: реальды дүние туралы білімі жоқ жүйеге, I took the cake from the table and ate it. сөйлеміндегі  it есімшесінің қай сөзге table әлде cake қатысы барын табу қиынға соғады.
  • Литерация (Literalness): Can you open the door? — I feel cold диалогында, сұрақ пен жауап нестандартты түрде берілген. Кейбір жағдайларда сұраққа қысқа жауап алуға болады yes/no, ал осы мысалда имплициттік сипатта есікті ашу өтініші болып тұр. Жалпы және қолданбалы NLP басты, орталық мәселесі – сондай біркелкісіздіктерді шешу – нақты сыртқы ТТ бір ішкі құрылымға аудару.

  Жалпы NLP сонгдай өзгеру реальды дүние туралы білім жинағын қажет етеді. Мысалы Jack took the bread from the supermarket shelf, paid for it, and left сөйлемін талдау үшін  және келесі сұрақтарға дұрыс жауап беру үшін What did Jack pay for?, What did Jack leave? и Did Jack have the bread with him when he left? Супермаркеттер, дүкендер, алу-сату процессі туралы және т.б. білімдер қажет.

Қолданбалы NLP жалпға қарағанда артықшылыққа ие, олар қысаң пәндік салада жұмыс істейді. Мысалы  компьютерлер сатылатын дүкенде сатушылар How many terminals are there in the order? сұрағындағы terminals сөзінің мағынасы туралу ойлануды қажет етпейді.

Әр салаларда табиғи тілді   қолданып  жұмыс істей алатын жүйелерді құру мүмкін, бірақ өкінішке орай нәтижелер қуанарлықтай емес.

Табиғи тілді талдау технологиясы

Табиғи тілді талдау технологиясы дегеніміз әлдебір табиғи тілдегі мағынаны ішкі құрылымға ауыстыру. ТТ талдау жүйесі келесі категрияларға бөлінген: үлгіні таңдау (Pattern Matching), синтаксичестік талдау, семантикалық грамматика, септік фреймдер көмегімен талдау, "күт және қара" (Wait And See), сараптық сөздік (Word Expert), коннекционистік, "тайғанақ" (Skimming) анализ. Төменде мақалада орын алған кең таралған әдістерді қарастырамыз.

          Үлгіні таңдау. Бұл тәсілдің негізінде -  енгізудің толықтығында жатыр, яғни жеке құрамдас бөліктер төменгі деңгейде қарастырылады. Осы әдісті пайдаланғанда іске қосылып, жүзеге асырылған жүйедегі үлгілер енгізілген мәтінмен салыстырылады.  

      Әдетте үлгілер айтылған сөздер мен интрепретациялардың классына сай қарапайым тізім түрінде беріледі. Кейде олар семантикалық элементтермен толықтырылады әлде басқа жоғарғы деңгейдегі компоненттермен. Осыған негізделіп, құрылған жүйе еш нәрсені де түсінбейді тек, диалогты жүргізіп 

:X всегда Y: Вы можете привести какой-нибудь пример?

Когда?

Действительно, всегда? 
XВы Yменя: Почему Вы думаете, что я Y Вас?

Вам нравится думать, что я Y Вас, не правда ли?

Представьте, что я Y Вас. Что Вы об этом думаете? Нәтижесінде жүйе келесі диалогты енгізеді:

Синтаксистік талдау. Синтаксистік талдауды қолданғанда сөйлемнің жеке бөліктері ғана интерпретацияға ұшырайды. Әдетте толық синтаксистік талдау жүргізіледі, содан кейін енгізілген мәтіннің ішкі құрылымы құрылады әлде интерпретацияға ұшырайды.

Талдау бұтағы мен еркін-контекстегі грамматика. Синтаксистік анализдің көптеген тәсілдері бұтақ түрінде бейнеленген. Қарапайым түрінің бірі – еркін-контексті грамматикасы, келесі түрдегі ережеден тұрады S=NP+VP или VP=V+NP, онда контексті өзгертпей сол жағы оң жағына ауыстырылуы мүмкін.  Еркін-контексті грамматика машина тілдерінде кең таралған және де соның көмегімен тиімділіг жоғары талдау әдістері құрылған. Бұл әдістің кемшілігі – грамматикалық дұрыс емес сөйлемдерге тиім жоқ, мысалы бастауыш баяндауышпен көпше түрінде үйлеспейді. Бұл мәселені шешу үшін екі, жеке бір уақытта жұмыс істейтін грамматика керек: біреуі – жекеше түріне, екіншісі – көпше түріне, тағыда пассивті сөйлемдердің өзіндік грамматикасы керек.

Семантикалық дұрыс емес сөйлем талдаудың көптеген нұсқаларын береді, солардың біреуінен семантикалық жазу құрылады. Осының барлығы ережелер санын көбейтеді, ол болса өз жағынан  NLP-ға еркін-контексті грамматиканы жарамсыз қылады.

Трансформациялық грамматика. Трансформациялық грамматика жоғарғы атап өткен кемшіліктерді ескере отырылып құрылған және ТТ ережелерін тиімді пайдану, бірақ NLP жарамсыз болды. Трансформациялық  грамматиканы Хомский шығарушылық болып құрған, сондықтан кері әрекет мүмкін емес, яғни анализді.

Кеңейтілген өтпелі желілер. Кеңейтілген өтпелі желілер Бобровпен (Bobrow), Фрейзермен (Fraser) және Вудспен (Woods) зерттелген, синтаксистік талдау идеясы және еркін-контексті грамматикасы.  Торап және бағытталған көрсеткіш түрінде көрсетіледі, "кеңейтілген" (толықтырылған) тест қатары (ереже), осылардың негізінде талдау жүргізіледі. Аралық нәтижелер ұяшықта (регистр) жазылады. Мысалы: The rabbit nibbles the carrot (Қоян сәбізді жеп отыр). Көрсеткіш – тестін нөмірін және де еркін-контексті грамматиканың белгілерін (NP), әлде нақты сөзді (by) білдіреді. Тесттер LISP тілінде жазылған, келесі түрдегі ереже болып келеді егер шарт=ақиқат, онда талдауға түсетін сөзге Х белгісін береміз және де ұяшыққа жазамыз.

 



Сурет 2. Кеңейтілген өтпелі желілер

Жоғарғы мысалға сүйене отырып, желістің жұмысының алгоритмін талдайық. Талдау сол жақтан басталады, сөйлемнің бірінші сөзінен the rabbit тестті өтеді, нәтижесінде ол көмекші етістік болып шықпады (Aux, 1 бағдар),бірақ атаулық топқа кірді (NP,2 бағдар). Сондықтан да the rabbit Subj ұяшығына кіргізіледі ,сөйлем  TypeDeclarative белгісіне ие  болады, “баяндайтын”, жүйе екінші торабқа өтеді. the rabbit – сөзінен тұрған сөз nibbles – етістік-баяндауыш ( Vm болып белгіленеді),  nibbles V атты ұяшығына жазылады. Сызылған тораб ол сөйлемді талдау аяқталды дегені. Бірақ біздің мысалда толықтауыш бар the carrot, талдау 6 бағдармен жүргізіледі ( 5 және 6 бағдар арасындағы таңдау арнайы тест арқылы жүргізіледі), the carrot сөзтіркесі  Obj атты ұяшығына салынады. Осымен талдау аяқталады ( соңғы кезең егер, біз пассивті сөйлемді талдасақ қолданылушы едік The carrot was nibbled by the rabbit). Сонымен Subj, Type, V және  Obj регистрлер (ұяшықтар) толтырылды, оларды пайдалана отырып, әлдебір түсінікті алуға болады (мысалы, ағаш).

 

Кеңейтілген өтпелі желілердің өзіндік кемшіліктері бар:

    • Модульдік еместігі;
    • Модификациядағы күрделілік;
    • Нәзіктік   (сөйлемдегі дұрыс емес грамматикасы, кейінгі  дұрыс талдау жүргізуді мүмкін қылмайды);
    • Қайтарулардың көптігінің тиімсіздігі, талдаудың өтпелі кезеңінде қателер сақталынбайды;
    • Алынған синтаксистік ұғымнан дұрыс семантикалық ұғымды құру тиімсіздігі.

Семантикалық грамматика. Семантикалық грамматиканы пайдалану негізінде ТТ анализдеу синтаксистікке ұқсас, тек айырмашылығы синтаксистік категориялардың орнына семантикалықтар қолданылынады. Семантикалық грамматика тар пәндік салада жұмыс істейді. Мысалы: Ladder жүйесі, американ кемелердің деректер базасына кіргізілген  оның грамматикасы келесі түрдегі жазуларды қамтиды:

S -> <present> the <attribute> of <ship>

<present> -> what is|[can you] tell me

<ship> -> the <shipname>|<classname> class ship

Бұндай грамматика келесі сұратуларды талдауға мүмкіндік береді Can you tell me the class of the Enterprise? (Enterprise –кеменің аты). Бұл жүйеде анализатор пайдаланушының сұратуы, деректер базасы тілінде сұратуы негізінде құрылады.

Семантикалық грамматиканың кемшілігі, біріншіден әр пәндік салаға өзінің жеке грамматикасы керек; екіншіден, өлшемі тез ұлғаяды Кемшіліктерді жою тәсілі  - синтаксистік анализді семантикалықтан бұрын өткізу, семантикалық грамматиканы реляциялық деректер базасысының шеңберінде қолдану және бірнеше әдістерді комбинациялау ( семантикалық грамматиканы да қосып).

Септілік фрейм көмегімен талдау. Септілік фреймнің пайда болуы NLP-нің дамуын қарқындатты. Қазіргі кезде  септілік фреймдер - NLP-нің жиі қолданылатын әдіс, компьютерлік-эффективтілігі жоғары талдауда төменнен жоғарыға (құрамдас бөлшектерден бүтінге), жоғарыдан төменге (бүтіннен құрамдас бөлікке).

Септілік фрейм тақырып пен рөльдер жиынтығынан тұрады (септіктер), олар болса тақырыппен өзара байланыста болады. Компьютерлік талдауға арналған фрейм кәдімгі фреймнен ерекшелінетіні тақырып пен рөльдер арасындағы қатынас семантикалық болады, яғни бір сөзге бірнеше рөльдео берілуі мүмкін, мысалы: зат есім іс-әрекет құралы әлде оның объектісі де бола алады.

Фреймнің жалпы құрылымы:

 [Тақырыптық етістік [септілік фрейм

агент: <активті агент, әрекет қылатын>

объект: <объект, әрекетті жасайды>

құрал: <әрекет жасағанда қолданылатын құрал>

реципиент: <әрекетті алушы – жиі жанама толықтауыш>

бағыт: <мақсаты (әдетте физикалық) әрекет>

орын: <әрекет қылатын орын>

бенефициант: <әрекет соның мүддесіне жүзеге асырылады>

коагент: <екінші агент, әрекеттке көмектесетін>

]]

Мысалы, Иван Катяға доп берді сөйлемдегі септілік фрейм:

 [Берді

[септілік фрейм агент: Иван объект:доп мяч реципиент: Катя] [грам

уақыт: өткен шақ]

]

Септіктер міндетті, міндетті емес және тиім салынғандар болып бөлінеді.

Сындыру етістігіне міндетті түрде объект септігі болып келеді, онсыз бұл сөйлем аяқталмаған болып саналады. Орын мен  коагент бұл мысалда міндетті емес септіктер болып келеді, ал бағыт пен реципиент - тиім салынғандар болады.

Жиі NLP-де каноникалық түрінде келтірілген семантикалық тәсілді қолданған тиімді болады. Белгілі тәсілі ол концептуальды тәуелділік, іс-әрекет етістіктеріне арнап Шенк зерттеген еді. Мағынасы әр іс-әрекет бір немесе бірнеше қарапайым әрекеттер түрінде көрсетіледі.

Мысалы,  Иван Катяға доп берді (1) және Катя Иваннан доп алды(2), сөйлемдерде синтаксистік айырмашылық бар, бірақ екеуіде беру актісін білдіреді, репрезентациясының келесі қарапайым Atrans әрекеттерден және концептуальды тәуелділік грамматикасын пайдаланудан құрылған:

(1) (2)

[Atrans [Atrans

отн: иелену отн: иелену

агент: Иван агент: Катя

объект: доп объект: доп

қайнар көзі: Иван қайнар көзі: Иван

реципиент: Катя] реципиент: Катя]

 

Осындай талдау арқылы сөйлемдердің айырмашылығы мен ұқсастығын анықтауға болады.

Талдауды жеңілдету үшін рөльдер лексикалық маркер мен толтырғыштарға бөлінеді. Объект рөліне маркер бекітілуі мүмкін тура толықтауыш, ал қайнар көз рөліне – келесі маркер түрі қолданылынады <маркер-из>=из|от|...

Информация о работе Деректер құрылымы мен сараптық жүйенің модулі