استخراج جملات موازی از دادگان وب

براتعلی پور, نسرین; فیلی, هشام; شاکری, آزاده

استخراج جملات موازی از دادگان وب

نوع مقاله : مقاله پژوهشی

نویسندگان

نسرین براتعلی پور ¹

هشام فیلی ²

آزاده شاکری ²

¹ دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

² استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

چکیده

پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین‌زبانی است. لازمه استفاده از این پیکره‌ها هم‌ترازی آنها در سطح جمله است، اما جمع‌آوری و یا تولید این پیکره‌ها و همچنین هم‌ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه‌بند بیشترین پراکندگیجملات موازی استخراج می‌شود. یکی از ویژگی‌های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه‌‌های متفاوت معنایی است.

کلیدواژه‌ها

پیکره موازی

هم‌ترازی متون

داده کاوی وب

عنوان مقاله English

Extracting Parallel Sentences from the Web

نویسندگان English

Nasrin Bratalipur ¹

Hosham Faili ²

Azadeh Shakeri ²

¹ M.A. student, Natural Language Processing Laboratory, College of Engineering, university of Tehran, School of Electrical and Computer Engineering

² Assistant professor, Natural Language Processing Laboratory, College of Engineering, university of Tehran, School of Electrical and Computer Engineering

چکیده English

Parallel corpora regard as rich linguistic resources for Natural Language Processing and Cross Language Information Retrieval tasks. It is usually needed to align sentences before using these valuable resources; however, sentence alignments are expensive in terms of time and cost. With development of the World Wide Web and free access to it, automatically building parallel corpus from the Web is desirable. In this paper, we first choose bilingual pages with parallel content to extract parallel sentence candidates. Then, by computing several features and learning a Maximum Entropy classifier, parallel sentences are extracted from the candidate sentences. Our approach is not dependent on specific domain and it can cover different domains in the Web.

کلیدواژه‌ها English

Parallel corpus

align sentence

web processing

دوره 8، شماره 30 - شماره پیاپی 30
پاییز 1391
صفحه 21-36

XML

اصل مقاله 166.19 K

تعداد مشاهده مقاله	272
تعداد دریافت فایل اصل مقاله	152

استخراج جملات موازی از دادگان وب

Extracting Parallel Sentences from the Web

دوره 8، شماره 30 - شماره پیاپی 30پاییز 1391صفحه 21-36

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 8، شماره 30 - شماره پیاپی 30
پاییز 1391
صفحه 21-36