الواجهات الصوتية… ثورة جديدة للتفاعل مع الأجهزة

كتب شادي عواد في صحيفة “الجمهورية”:

تتيح ميزة التحكّم الصوتي إمكانية تنشيط وظائف معيّنة بالصوت في الأجهزة الذكية التي تدعم ذلك، والتي تشتمل على الأجهزة المحمولة والأنظمة المنزلية الذكية ومنصات الترفيه في السيارات والتعامل مع الروبوتات ومع أيّ جهاز يدعم هذه التقنية.

يتّجه مستقبل التكنولوجيا في السنوات المقبلة نحو تجاوز لوحات المفاتيح والشاشات، واستبدالها بتقنية التعرف الى الصوت وتنفيذ الأوامر الصوتية التي تعتمد على الذكاء الإصطناعي الذي يعزّز التفاعل بين الإنسان والآلة. فبعدما أثارت «سيري» عندما قدمتها شركة آبل للمرة الأولى حماسة الجميع، وأصبح المستخدم قادراً على الحديث مع هاتفه الذكي وطلب بعض الأوامر منه، بات إستخدامُ الصوت مع الأجهزة الذكية أمراً طبيعياً لا يدعو إلى الكثير من الاستغراب. ويقول الخبراء إنّ عام 2019 سيكون عام واجهة المستخدم الصوتية التي ستحلّ محلّ الواجهة الرسومية السائدة حالياً في معظم الأجهزة، وستمكّن هذه الواجهة من التفاعل بين الإنسان والآلة عبر منصّة صوتية لتشغيلِ خدمةٍ أو إيقافها أو تعديلها. وبذلك سيتمّ الإستغناء عن الأزرار في كثير من الأجهزة وفي بعض الحالات أيضاً عن شاشات اللمس، لتصبح الأجهزة أصغرَ وأخفّ وزناً، وتندمج بشكل أكبر في الحياة اليومية للمستهلكين. ويعتقد الكثير من الخبراء بأنّ التفاعل الصوتي باللغة الطبيعية مع الأجهزة الإلكترونية سيكون له حيّز كبير إن لم يكن رئيسيّاً من طريقة إستخدامنا للأجهزة المختلفة في المستقبل القريب، نظراً لأنّ الطريقة الطبيعية لتواصل البشر أصلاً هي الكلام، لذلك سنصل إلى مرحلة تتيح التحدث براحة تامة مع الأجهزة بالطريقة نفسها التي نتخاطب بها مع البشر.

تطوّرٌ كبير
على الرغم من أنّ تقنية التعرف الى الصوت موجودة منذ أكثر من عشر سنوات على الكمبيوتر، لكنها في الفترة الأخيرة إتّخذت منحىً جديداً. فبعدما كانت تفهم بعض الكلمات وطريقة التعامل معها معقّدة وبدائية وغير متطورة بالشكل الكافي، أصبحت بفضل الذكاء الإصطناعي وبحوث التعلّم الآلي قادرة على معالجة الصوت وفهم كل لغات العالم تقريباً، وتمييز الصوت والتعرف الى المستخدم حتى في ظروف الضجيج المحيطة.

وتنقسم تقنية التعرف الى الصوت الحالية الى ثلاثة أقسام. القسم الأول الإملاء الذي يحوّل من خلاله الجهاز الكلام إلى نص، القسم الثاني هو التعرف الى الصوت وفهم الأوامر لتشغيل الجهاز عن طريق الكلام، والقسم الثالث هو التعرف الى صوت المستخدم فقط وتميّزه من بين الأصوات الأخرى. وجميع هذه الأقسام تتشابه في طريقة عملها، أي أنها تعتمد على التقاط الصوت عبر الميكروفون وتحلّله من خلال تطبيقات وبرمجيات خاصة بالمعالجة الأوّلية والمطابقة، يمكنها فهم الكلام المنطوق والتعرف الى الصوت بمستوى يقارب 95٪. وهذا التطور الكبير سيكون له أثر كبير في تغيير تعامل المستهلكين مع المنتجات والخدمات، وسيترك أثراً في بعض الصناعات الأساسية، منها صناعة السيارات والأدوات الذكية القابلة للارتداء وفي تقنية الواقع الإفتراضي وقطاع خدمة العملاء في البنوك والمؤسسات والفنادق والمستشفيات. وهذا ما يمهّد الى مستقبل التنكولوجيا التي تُعرف بـ»إنترنت الأشياء»، حيث ستكون جميع الأجهزة والمعدات على أنواعها ذكية ومتصلة بالشبكة العنكبوتية وبمالكها.