مدل های آماری ترکیبی قابل آموزش با دادگان حجم متوسط برای تولید گونه های تلفظی کلمات در انواع ایستا و پویا
علوم و مهندسی کامپیوتر - The CSI Journal on Computer Science and Engineering
1386/2007
چکیده
در گفتار پیوسته، کلمات به صورتهای گوناگونی تلفظ می شوند. وجود تنوعات تلفظی ایجاب می نماید واژگان سیستم بازشناسی گفتار پیوسته، حاوی گونه های تلفظی مناسب کلمات به همراه احتمال وقوع هر یک از آنها باشد. با ایجاد چنین واژگانی می توان درصد دقت بازشناسی کلمات را افزایش داد. ابزار درخت تصمیم بطور وسیعی برای مدلسازی گونه های تلفظی کلمات و واحدهای زیرکلمه استفاده می شود. در صورتی که مدلسازی در سطح کلمه صورت گیرد، یعنی به ازای هر کلمه یک درخت تصمیم بطور خاص برای تعیین گونه های تلفظی آن تعلیم یابد، دادگان بسیار بزرگی شامل تمام کلمات موجود در واژگان با تعداد تکرار کافی مورد نیاز است. در این رویکرد علاوه بر نیاز به دادگان بسیار بزرگ، برای کلمات جدیدی که در دادگان آموزش موجود نباشند دچار مشکل می شویم بطوری که در عمل کاربرد آن برای سیستم های بازشناسی گفتار با واژگان خیلی بزرگ ناممکن می شود. در تحقیق حاضر برای حل این مساله، درخت های تصمیم تعمیم یافته را طراحی نموده ایم. در این روش هر درخت مختص به یک کلمه نیست بلکه هر درخت مختص به گروهی از کلمات است که دارای ساختار واجی مشابه باشند. این درختها به صورتی کلی، توانایی پیش بینی آن نواحی از کلمه را که تبدیل، حذف و درج واج در آنها امکان داشته باشد، دارا هستند. بعد از یافتن نوع کلی تغییرات تلفظی کلمه از این طریق، قواعد تلفظی آماری، که از یک دادگان گفتاری با حجم متوسط استخراج شده اند و بطور کاملا جزیی و دقیق مشخص می کنند. هر واج در چه زمینه واجی، چه تغییراتی خواهد کرد، به بخش هایی از کلمات که توسط درخت تصمیم مشخص شده اند، اعمال می شوند تا گونه های تلفظی کلمه تولید گردند. به این ترتیب، یک مدل تلفظی شکل می گیرد که در عین عملکرد بر روی کل ساختار کلمه، نیازی به دادگان های بسیار بزرگ جهت آموزش ندارد. این مدل ترکیبی درخت تصمیم/ قاعده در حالت آموزش و استفاده به شکل ایستا، از ویژگی های ساختار واجی کلمه، محل تکیه در کلمه، احتمال وقوع کلمه در متون، و اطلاعات متنی واج ها استفاده می کند. در حالت آموزش و بکارگیری این مدل در شکل پویا، علاوه بر این ویژگی ها، نرخ گفتار نیز بطور همزمان به آن وارد می شود. با استفاده از گونه های تولید شده توسط این مدل، در حالت های ایستا و پویا، در واژگان سیستم بازشناسی گفتار پیوسته "شنوا"، به ترتیب 8.1% و 10.3% کاهش در نرخ خطای بازشناسی در سطح کلمه مشاهده گردید.

