نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی کارشناسی ارشد، زبان‌شناسی رایانشی، مرکز زبان‌ها و زبان‌شناسی، دانشگاه صنعتی شریف

2 استادیار، گروه زبان‌شناسی رایانشی، مرکز زبان‌ها و زبان‌شناسی، دانشگاه صنعتی شریف

چکیده

درک زبان محاوره حوزۀ خاصی از درک زبان طبیعی را شامل می‌شود که در آن جملات بیان‌شده توسط کاربر به اندازۀ جملات زبان نوشتاری تابع دستور زبان نیستند. در این مقاله، سامانه محاورۀ مبتنی بر متن برای استخراج معنای جملات محاوره‎ای مربوط به حوزۀ ذخیره بلیت معرفی می­شود. در طراحی این سامانه از شیوه‌های مبتنی بر داده استفاده شده است. معماری آن شامل دو بخش اصلی استخراج متغیرها و انتساب محتمل‌ترین برچسب‌های معنایی به دنباله‌ای از کلمات است. برای این کار از الگوی مخفی مارکوف استفاده می­شود. برچسب‌زنی معنایی دنبالۀ کلمات با استفاده از الگوریتم ویتربی صورت می‌گیرد. بدین منظور، ابتدا پیکره‌ای از جملاتِ مورد استفاده در حوزۀ ذخیره بلیت جمع‌آوری و سپس به هر کلمه یا ترکیبی از کلمات یک برچسب معنایی تخصیص داده می­شود. در مرحلۀ آموزش با استفاده از پیکرۀ برچسب‌خورده، دنبالۀ برچسب‌های ممکن برای توالی کلمات مختلف یاد گرفته می‌شود. در مرحلۀ آزمون با استفاده از احتمالات استخراج‌شده از مرحلۀ آموزش، محتمل‌ترین برچسب معنایی برای هر کلمه یا ترکیبی از کلمات پیدا می‌شود. بر اساس آزمایش‌های انجام‌شده، دقت سامانه پیشنهادی در تشخیص سه برچسب کلیدیِ مبدأ، مقصد و تاریخ 91 درصد است.
 
 

کلیدواژه‌ها

عنوان مقاله [English]

Understanding Meaning in a Text-Based Dialogue System for Specific Domain of Ticket Reservation

نویسندگان [English]

  • Paria Jamshidlu 1
  • Mohammad Bahrani 2

1 M.A. student, Computational Linguistics, Languages and Linguistics Center, Sharif University of Technology

2 Assistant professor, Computational Linguistics Department, Languages and Linguistics Center, Sharif University of Technology

چکیده [English]

Spoken language understanding is considered as a specific domain of natural language understanding in which the uttered sentences are not as well-formed as written sentences. In the present paper, a text-based system of spoken language understanding is introduced for ticket reservation domain. This system is developed according to the data-driven approach and its architecture includes two main parts: first, extracting parameters of the model and second, assigning the most likely semantic tags to the sequence of words.  "Hidden Markov Model" and "Viterbi" algorithm are applied in order to train the parameters and to tag the sequence of words. For this purpose, a corpus of commonly-used sentences in ticket reservation domain is collected and a specific tag is assigned to each word or a combination of words. In the training step, by using the tagged corpus, a sequence of possible tags is learned for a sequence of various words and in the testing step the most likely tag is assigned to a word or a combination of words according to the probabilities calculated in the previous step. Evaluation of the accuracy of system in recognizing the three key tags of departure, arrival and date is 91%.

کلیدواژه‌ها [English]

  • natural language understanding
  • spoken dialogue system
  • data-driven approach
  • Hidden Markov Model
  • Viterbi algorithm