دیتاست و موتور تشخیص گفتار OpenExpress

دیتاست و موتور تشخیص گفتار OpenExpress

آموزش شبکه‌های عصبی مصنوعی جهت تشخیص گفتار نیازمند حجم زیادی از صدا و متن متناظر است. OpenExpress می‌کوشد دیتاستی استاندارد و موتوری توانمند باشد برای تبدیل گفتار به نوشتار، با پوشش اولیه زبانهای فارسی، ترکی و کردی.

هنوز هیچی

از 8,000,000 تومان

60 روز

زمان باقی مانده

0 نفر

حامی پروژه

0%
0% کامل شده

با اطمینان حمایت کنید

در صورت عدم موفقیت پروژه در تامین مبلغ هدف، حمایت پرداختی به حساب شما در دونیت بازگشت داده خواهد شد.

بانی پروژه

دیتاست و موتور تشخیص گفتار OpenExpress

۱. پیشگفتار

تشخیص گفتار در سیستم‌های نرم‌افزاری همیشه توام بوده است با پیچیدگی‌های بسیار. سیستم‌های قبلی نیازمند دخالت شدید انسانی در فرآیند آماده‌سازی بودند که این مساله زمان، هزینه و دقت محصول نهایی را تحت تاثیر قرار می‌داد. در طول چند سال گذشته با پیشرفت‌های صورت گرفته در حوزه سخت‌افزار و یادگیری عمیق، محصولات نرم‌افزاری چند شرکت بزرگ توانسته‌اند حتی انسان را نیز در دقت تشخیص به چالش بکشند. تولید چنین محصولی به فاکتورهای متعدد بستگی دارد، دانش فنی، شبکه‌ای گسترده برای انجام پردازشهای سنگین ماتریسی و شاید مهمتر از همه اطلاعات خام برای آموزش سیستم.

 

شاید برایتان جالب باشد که موتورهای تشخیص گفتار چگونه کار می‌کنند. انسان را می‌توان یک ماشین در نظر گرفت که با دریافت اطلاعات از محیط اطراف خود و ایجاد رابطه بین آنها می‌تواند الگوسازی کند و نسبت به شرایط جدید عکس‌العمل متناسب را با توجه به آنچه یاد گرفته است بروز دهد. دو کودک را در نظر بگیرید که اولی در نقطه A و دومی در نقطه B متولد شده‌اند. هرکدام از این نقاط نیز زبان خاص خود را دارند. این کودکان نیز بر حسب اینکه در کدام نقطه بزرگ شده و کدام زبان ر ا می‌شنوند زبان A یا B را یاد خواهد گرفت. نکته مهم این است که در این فرآیند نیازی نیست که حتما کسی را به عنوان معلم برای کودکان در نظر گرفت که به آنها زبان مورد نظر را آموزش دهد، بلکه خود آنها تنها با گوش دادن مکرر و شنیدن عبارات بیان شده توسط افراد مختلف می‌توانند به زبان مذکور مسلط شوند.

 

شبکه‌های عصبی مصنوعی که مدل نرم‌افزاری معادل همین کودک هستند نیز به همین شکل برای تشخیص گفتار آموزش داده می‌شوند اما بزرگترین مشکل اصلی تولید چنین سیستم‌هایی کمبود و حتی در اغلب موارد عدم وجود داده‌های اولیه برای آموزش است. بنابراین اگر شخص یا شرکتی حتی توان مالی و دانش فنی ساخت چنین محصولی را هم داشته باشد در نهایت موفق نخواهد شد چرا که دیتاست مناسبی در اختیار ندارد.

 

۲. کمبود داده اولیه؟ چه داده‌ای؟

یکه‌تازی موتورهای گفتاری زبان انگلیسی به دلیل وجود چندین مجموعه داده صوتی و متنی بزرگ است، مجموعه‌هایی مانند TEDLIUM، LibriSpeech و VCTK تنها چند نمونه هستند. مجموعه TEDLIUM مشتکل از +۷۰۰ سخنرانی و حدود +۱۰۰ ساعت صوت و متن است. اما هیچکدام از زبانهای مذکور دارای چنین مجموعه‌هایی نیستند در نتیجه تولید موتورهای تشخیص گفتار مبتنی بر شبکه‌های عصبی برای این سه زبان ناممکن است.

از این رو تلاش می‌کنیم پلتفرمی را تولید کنیم که بتوان آن را برای گردآوری داده‌های صوتی و متنی استاندارد در سطح کلان استفاده کرد. با این کار ما عملا بزرگترین مشکل جامعه تحقیقاتی و صنعتی کشور در این حوزه را رفع کرده‌ایم.

 

۳. فارسی، کردی و ترکی: همه در یک پلتفرم

این پلتفرم مستقل از زبان است. تمامی ابزارهای کلیدی مانند تقطیع صدا، سرکوب/تقویت نویز و استانداردسازی فایلهای صوتی و متنی مشترک هستند. بنابراین نیازی به بازنویسی سیستم‌های جداگانه برای هر زبان نخواهد بود، بلکه تنها کافیست زبانهای مورد نظر تعریف شوند و اقدام به مشارکت در رشد آن کرد اما طی برنامه اولیه، تمرکز ما معطوف به سه زبان مذکور خواهد بود.

پلتفرم مذکور متشکل از یک سرویس مرکزی و کلاینت‌های مناسب برای مشارکت کاربران داوطلب خواهد بود از جمله نسخه تحت وب، دسکتاپ و نسخه‌های قابل اجرا بر روی تلفن‌های هوشمند مبتنی بر Android و iOS.

 

۴. گردآوری داده‌ها

گردآوری مجموعه‌ها به دو روش انجام می‌شود: ۱. برچسب‌زنی فایل‌های صوتی آماده ۲. قرائت عبارت‌های متنی آماده

در حالت اول، فایل‌های صوتی گردآوری شده توسط شبکه به شکل خودکار تقطیع می‌شوند، کاربران حاضر در پلتفرم اقدام به گوش دادن و برچسب زدن هرکدام از این فایلها می‌کنند. در حالت دوم نیز مشارکت‌کنندگان ترجیحا از طریق تلفن هوشمند اقدام به خواندن عبارت دریافتی و ضبط آن می‌کنند.

با بکارگیری هردو روش گردآوری، تنوع صوتی و متنی حفظ شده و روشهای متنوع‌تری پیش روی افراد قرار می‌گیرد.

کل این پروسه به شکل Crowdsourcing انجام می‌شود. امیدواریم به این شکل بتوانیم دیتاست گسترده‌ای را برای هرکدام از این زبان‌ها گردآوری کنیم.

 

۵. کاربردها

دسترسی به این داده‌ها در حوزه‌های تحقیقاتی و صنعتی به ویژه پردازش سیگنال، پردازش زبان طبیعی (NLP) و یادگیری ماشینی بسیار حائز اهمیت است. داده‌های محدود، تحقیقات در این حوزه را نیز محدود کرده است اما با چنین سیستمی می‌توان اطلاعات لازم را بدست آورد و این مشکل را رفع کرد.

 

۶. انتشار مجموعه داده گردآوری شده

از آنجا که بخشی از فعالیت‌های گردآوری داده‌ها با کمک کاربران صورت می‌گیرد، لذا قسمت‌هایی از این اطلاعات به صورت رایگان منتشر شده و در اختیار تمامی موسسات و افراد قرار می‌گیرد. همچنین جهت مشارکت بیشتر شما بسته‌هایی در دونیت تعریف شده‌اند که هرکدام از آنها می‌توانند گره‌گشای فعالیت‌های تحقیقاتی برای افراد مختلف باشند. دسترسی دارندگان این بسته‌ها قبل از انتشار بسته‌های رایگان خواهد بود.

 

۷. یه خلاصه خودمونی

تولید دیتاست فرآیندی هست بلندمدت و به شدت پرهزینه، شرکتهای بزرگ مثل گوگل مجموعه‌هایی دارن در حدود ۱۰ هزار ساعت صوت و متن. بخشی از پروسه تولید این مجموعه هم با استخدام افراد متعدد جهت پالایش و تفکیک اطلاعات انجام شده اما ما چنین پشتیبانی‌ای نداریم ک بخایم به این شکل کار کنیم. در طول یکسال گذشته، شخصا ابزارهای اصلی رو تولید و برنامه‌ریزی کردم که این امکان رو به جامعه کاربری بده که به شکل داوطلبانه مشارکت کنن تو این کار، به شکلی که بخش اعظم کارها اتوماتیک باشن و با کمترین تعامل کاربری. الان برای پیشبرد کار نیاز به همکاری دارم، طراحی سایت، تست سورس و در کنارش هزینه‌های سرویس‌دهی به تعداد نامشخصی از کاربران که ممکنه هر لحظه با افزایش ناگهانی ترافیک مواجه بشیم بدون تامین هزینه قابل انجام نیست. این بودجه، اگرچه کافی نیست، اما مطمئنا حرکت اول رو تسریع می‌کنه.

امیدوارم حمایت شما به هرکدوم از اشکال مالی یا اطلاعاتی بتونه کمک کنه به نتیجه‌بخش شدن این پروژه.

 

ارتباط با من

اگه سوال، پیشنهاد یا انتقادی داری میتونی باهام تماس بگیری :-)

تلگرام [email protected]

ایمیل [email protected]

دسترسی به ٪۵ از مجموع دیتاست صوتی و متنی

مبلغ 50,000 تومان

0

حامی

شما می‌توانید به ۵٪ از مجموع داده‌های گردآوری شده یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. (حداکثر ۵ ساعت)

دسترسی به ۱۰٪ از مجموع دیتاست صوتی و متنی

مبلغ 100,000 تومان

0

حامی

تعداد محدود 25 از 25 مانده

شما می‌توانید به ۱۰٪ از مجموع داده‌های گردآوری شده یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. این بسته شامل صوت و متن تفکیک شده و استاندارد خواهد بود. (حداکثر ۱۰ ساعت)

دسترسی به ۱۵٪ از مجموع دیتاست صوتی و متنی

مبلغ 150,000 تومان

0

حامی

تعداد محدود 15 از 15 مانده

شما می‌توانید به ۱۵٪ از مجموع داده‌های گردآوری شده یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. این بسته شامل صوت و متن تفکیک شده و استاندارد خواهد بود. (حداکثر ۱۵ ساعت)

دسترسی به ۲۰٪ از مجموع دیتاست صوتی و متنی

مبلغ 200,000 تومان

0

حامی

تعداد محدود 10 از 10 مانده

شما می‌توانید به ۲۰٪ از مجموع داده‌های گردآوری شده یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. این بسته شامل صوت و متن تفکیک شده و استاندارد خواهد بود. (حداکثر ۲۰ ساعت)

دسترسی به ۲۰٪ از دیتاست متنی

مبلغ 20,000 تومان

0

حامی

شما می‌توانید به ۲۰٪ از مجموع داده‌های متنی یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود.

دسترسی به 3۰٪ از دیتاست متنی

مبلغ 30,000 تومان

0

حامی

شما می‌توانید به 30٪ از مجموع داده‌های متنی یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. این بسته شامل فایل‌های متنی جداگانه به همراه مدل زبانی KenLM خواهد بود.

دسترسی به 4۰٪ از دیتاست متنی

مبلغ 40,000 تومان

0

حامی

شما می‌توانید به 4۰٪ از مجموع داده‌های متنی یکی از زبانها دسترسی پیدا کنید. از آنجا که پروژه بلندمدت است، درصد مذکور به هنگام ثبت درخواست شما در سیستم لحاظ می‌شود. این بسته شامل فایل‌های متنی جداگانه به همراه مدل زبانی KenLM خواهد بود.