%0 Journal Article %T استخراج جملات موازی از دادگان وب %J فصلنامه پازند %I فاطمه نعیمی حشکوائی %Z 1735-2290 %A براتعلی پور, نسرین %A فیلی, هشام %A شاکری, آزاده %D 2012 %\ 09/22/2012 %V 8 %N 30 %P 21-36 %! استخراج جملات موازی از دادگان وب %K پیکره موازی %K هم‌ترازی متون %K داده کاوی وب %R %X پیکره‌های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین‌زبانی است. لازمه استفاده از این پیکره‌ها هم‌ترازی آنها در سطح جمله است، اما جمع‌آوری و یا تولید این پیکره‌ها و همچنین هم‌ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع‌آوری پیکره‌های موازی از وب و هم‌ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی­های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه‌بند بیشترین پراکندگی جملات موازی استخراج می‌شود. یکی از ویژگی‌های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه‌‌های متفاوت معنایی است.   %U https://www.pazand.ir/article_143097_51bab0be96cf3abe8c1f50c7f31d80af.pdf