@article { author = {Bratalipur, Nasrin and Faili, Hosham and Shakeri, Azadeh}, title = {Extracting Parallel Sentences from the Web}, journal = {Pazand Quarterly}, volume = {8}, number = {30}, pages = {21-36}, year = {2012}, publisher = {Fatemeh Naeimi H.}, issn = {1735-2290}, eissn = {2717-073X}, doi = {}, abstract = {Parallel corpora regard as rich linguistic resources for Natural Language Processing and Cross Language Information Retrieval tasks. It is usually needed to align sentences before using these valuable resources; however, sentence alignments are expensive in terms of time and cost. With development of the World Wide Web and free access to it, automatically building parallel corpus from the Web is desirable. In this paper, we first choose bilingual pages with parallel content to extract parallel sentence candidates. Then, by computing several features and learning a Maximum Entropy classifier, parallel sentences are extracted from the candidate sentences. Our approach is not dependent on specific domain and it can cover different domains in the Web.}, keywords = {Parallel corpus,align sentence,web processing}, title_fa = {استخراج جملات موازی از دادگان وب}, abstract_fa = {پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین‌زبانی است. لازمه استفاده از این پیکره‌ها هم‌ترازی آنها در سطح جمله است، اما جمع‌آوری و یا تولید این پیکره‌ها و همچنین هم‌ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی­های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه‌بند بیشترین پراکندگی جملات موازی استخراج می‌شود. یکی از ویژگی‌های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه‌‌های متفاوت معنایی است.  }, keywords_fa = {پیکره موازی,هم‌ترازی متون,داده کاوی وب}, url = {https://www.pazand.ir/article_143097.html}, eprint = {https://www.pazand.ir/article_143097_51bab0be96cf3abe8c1f50c7f31d80af.pdf} }