همپوشانی گفتار به گونه ای مشهور شده که می تواند سطح اجرای تخصیص سخنگو را با اثرات خوشه بندی و تقسیم بندی سخنگو، تحت تاثیر قرار دهد. با وجود اینکه در راستای موضوعات مربوط به زمان های گفتار و نیز موضوعات مربوط به سخنگو تحقیقات و پیشرفت های گسترده ای صورت گرفته است، اما مشکل اصلی هنوز حل نشده باقی می ماند در این مقاله برای اولین بار روش کد گذاری پیچیده پراکنده غیر منفی (CNSC) به جهت حل مسئله همپوشانی گزارش شده است. کاربرد رمز گذاری پراکنده غیر منفی پیچیده قصد دارد یک سیگنال مرکب به بخش های زیرین آن تقسیم کند و بنابراین به طور طبیعی در جایی قرار می گیرد که بتواند تشخیص و بررسی را میسر سازد نتایج بررسی داده های سازمان ملی استاندارد و فناوری نشان می دهد که رویکرد CNSC نتایج قابل قیاسی نسبت به آخرین مدل پیشرفته مبتنی بر مدل ردیاب مارکف نشان می دهد. در یک سیستم یکپارچه سازی عملی، CNSC مبتنی بر تشخیص سخنگو به گونه ای نشان داده شده است که درصد خطای سخنگو را تا 40 درصد مرتبط با همپوشانی بخش ها ، کاهش می دهد .
رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
9,500 تومانشناسه فایل: 8270
- حجم فایل ورد: 187.2KB حجم پیدیاف: 119.4KB
- فرمت: فایل Word قابل ویرایش و پرینت (DOCx)
- تعداد صفحات فارسی: 13 انگلیسی: 4
- دانشگاه:
- Multimedia Communications Department, Eurecom, Sophia Antipolis, France
- Institute for Human-Machine Communication, Technische Universität München, Germany
- ژورنال: 2012 IEEE International Conference on Acoustics (1) Speech and Signal Processing (ICASSP) (1)
چکیده
مقدمه مقاله
در سال های اخیر ، سیستم های نوآوری و تخصیص سخنگو پیشرفته به نقطه ای رسیده اند که در آن همپوشانی گفتار می تواند یک منبع برجسته ی خطا باشد. مسئله ی رخداد همپوشانی در سناریوهای کنترل نشده ی خود به خودی ، مثل کنفرانس ها ، مساله ای معمولیست و از سال 2004 به یکی از مسئله های مورد بررسی معادلات رونویسی سازمان ملی استاندارد و فناوری تبدیل شده است .
در محیط تخصیص سخنگو باید به بررسی دو مشکل پرداخت. اولین مورد، تشخیص همپوشانی گفتار است که می توان آن را از خوشه بندی سخنگو و آموزش مدل حذف کرد و دومین مشکل شامل تخصیص همپوشانی گفتار به سخنگو های فرعی می شود و اساسا به یک تشخیص همپوشانی قابل اعتماد بستگی دارد. شواهدی وجود دارد که نشان می دهد راه حل مشکل اول به تنهایی می تواند کافی باشد و در واقع راه حلی که پیرامون تخصیص سخنگو باشد از هر راه حلی با ارزش تر است .
پژوهش های بسیار اندکی بوده اند که در حل مشکل همپوشانی گفتار موفق عمل کرده اند. بوکی و همکارانش، کاربرد ویژگی های متعددی را در کشف همپوشانی و با استفاده از مدل مارکف، به منظور کشف مشکل و مراحل پس از آن ، بررسی کرده اند. نتایج خوشایندی گزارش شده است و آزمایش های اوراکلی پتانسیل آن را تایید می کنند. نگرش ما در همپوشانی ردیابی و تخصیص شامل، اتحاد و تجزیه ماتریس غیر منفی پیچیده پراکنده می شود.[1] این روش از الگوهای طیفی زمانی استفاده می کند و به طور موفقیت آمیزی در برنامه های کاربردی مربوط به حذف نویز و جداسازی گفتار مورد استفاده قرار گرفته است. در حالی که نتایج ابتدایی الگوریتم فاکتورگیری ماتریس غیر منفی دو کانالی خوشایند بوده است، استفاده از محدودیت های برچسب گذاری خطی ، نتایج بهتری در بر دارد . نتایج رویکرد روش رمز گذاری پراکنده غیر منفی پیچیده (CNSC)، مزایای تجزیه ی الگوهای ترکیب شده را به علت ماهیت غیر منفی و اجرای پر قدرت و نیرومندی نویز و به علت برچسب گذاری خطی با هم ترکیب می کند .
در یک سیستم تخصیص سخنگو عملی ، همپوشانی ردیابی مبتنی بر برچسب گذاری پراکنده منفی و تخصیص سخنگو شامل یادگیری الگوهای پایه ی سخنگو با استفاده از خروجی های تقطیع و ارسال سیگنال های صوتی به مجموعه ی پایگاه های سخنگو می شود. فعالیت های پایه، می تواند شناسه ای برای فعالیت های سخنگو ایجاد کرده و از این رو می تواند هم در تشخیص و هم در تخصیص مدت همپوشانی گفتار موثر باشد. با توجه به محدودیت های مربوط به خطی بودن، توزیع انرژی سخنگو تنها در پایه های بسیار محدودی اجرا شده است بنابراین بین سخنگو های فعال و غیرفعال تفاوت کمتری ایجاد می شود. نتایج آزمایشگاهی برتری نگرش به کار رفته را نشان می دهد و سایر پژوهش هایی که در راستای توسعه این پتانسیل باشند را حمایت می کند .
[1] فاکتورگیری ماتریس غیر منفی دو کانالی
ABSTRACT Speech overlap detection and attribution using convolutive non-negative sparse coding
Overlapping speech is known to degrade speaker diarization performance with impacts on speaker clustering and segmentation. While previous work made important advances in detecting overlapping speech intervals and in attributing them to relevant speakers, the problem remains largely unsolved. This paper reports the first application of convolutive non-negative sparse coding (CNSC) to the overlap problem. CNSC aims to decompose a composite signal into its underlying contributory parts and is thus naturally suited to overlap detection and attribution. Experimental results on NIST RT data show that the CNSC approach gives comparable results to a state-of-the-art hidden Markov model based overlap detector. In a practical diarization system, CNSC based speaker attribution is shown to reduce the speaker error by over 40% relative in overlapping segments.
Introduction
Over recent years, state-of-the-art speaker diarization systems have advanced to the point where overlapping speech can be a dominant source of error [1, 2]. The occurrence of overlap is typical in uncontrolled, spontaneous scenarios such as that of conference meetings, which have been the focus of the NIST Rich Transcription (RT) evaluations since 20041.
In a speaker diarization context two problems need to be addressed. The first involves the detection of overlapping speech so that it can be removed from speaker clustering and model training. The second problem involves the attribution of overlapping speech to contributing speakers and naturally depends on reliable overlap detection. There is some evidence that a solution to the first problem alone is unlikely to be sufficient and that a solution to speaker attribution is potentially more valuable [3–5].
Only a small number of attempts to treat overlapping speech have been successful. Boakye et al. [4, 6] investigated the use of multiple features for overlap detection using a hidden Markov model (HMM) based system for detection and a post-processing step for attribution. Encouraging results are reported and oracle experiments confirm the full potential.
Our approach to overlap detection and attribution involves convolutive, non-negative matrix factorisation (CNMF). CNMF captures spectro-temporal patterns and has been successfully applied to speech denoising/separation applications [7]. While initial results with the basic CNMF algorithm were encouraging, the use of sparse coding constraints [8] gave more promising results. The resulting convolutive non-negative sparse coding (CNSC) approach combines the advantages of mixed pattern decomposition due to non-negative constraints and powerful representation and noise robustness due to sparse coding.
In a practical speaker diarization system, the CNSC-based overlap detection and speaker attribution involves learning speaker specific base patterns using the diarization output and projecting the acoustic signal onto the set of speaker bases. Base activations provide an indication of speaker-specific activity and hence can be used to both detect and attribute intervals of overlapping speech. Due to the sparseness constraints, the distribution of speaker energy is enforced to only a small number of bases and thus provides better discrimination between active and inactive speakers. Experimental results demonstrate the merit of the proposed approach and support further work to develop the potential.
- مقاله درمورد رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- کاربرد روش کدنگاری پیچیده پراکنده غیر منفی در شناسایی همپوشانی گفتار
- تشخیص و شناسایی همپوشانی گفتار با استفاده از برنامه نویسی ضعیف غیر منفی پیچیده
- پروژه دانشجویی رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- کاربرد متد کد گذاری خطی در شناسایی همپوشانی گفتار
- پایان نامه در مورد رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- تحقیق درباره رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- مقاله دانشجویی رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار در قالب پاياننامه
- پروپوزال در مورد رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- گزارش سمینار در مورد رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار
- گزارش کارورزی درباره رویکرد رمز گذاری پراکنده غیر منفی پیچیده (CNSC) در تشخیص همپوشانی گفتار