نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
2 استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
چکیده
پیکرههای موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بینزبانی است. لازمه استفاده از این پیکرهها همترازی آنها در سطح جمله است، اما جمعآوری و یا تولید این پیکرهها و همچنین همترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمعآوری پیکرههای موازی از وب و همترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقهبند بیشترین پراکندگی جملات موازی استخراج میشود. یکی از ویژگیهای جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزههای متفاوت معنایی است.
کلیدواژهها
عنوان مقاله [English]
Extracting Parallel Sentences from the Web
نویسندگان [English]
- Nasrin Bratalipur 1
- Hosham Faili 2
- Azadeh Shakeri 2
1 M.A. student, Natural Language Processing Laboratory, College of Engineering, university of Tehran, School of Electrical and Computer Engineering
2 Assistant professor, Natural Language Processing Laboratory, College of Engineering, university of Tehran, School of Electrical and Computer Engineering
چکیده [English]
Parallel corpora regard as rich linguistic resources for Natural Language Processing and Cross Language Information Retrieval tasks. It is usually needed to align sentences before using these valuable resources; however, sentence alignments are expensive in terms of time and cost. With development of the World Wide Web and free access to it, automatically building parallel corpus from the Web is desirable. In this paper, we first choose bilingual pages with parallel content to extract parallel sentence candidates. Then, by computing several features and learning a Maximum Entropy classifier, parallel sentences are extracted from the candidate sentences. Our approach is not dependent on specific domain and it can cover different domains in the Web.
کلیدواژهها [English]
- Parallel corpus
- align sentence
- web processing