Perangkat Mobile Dari Waktu ke waktu (Past,Present And Future)
Para ahli, secara personal maupun institusi, mencoba menggambarkan kondisi
telekomunikasi masa depan dengan beragam sudut pandang, pendekatan dan istilah. Ray
Kurzweil adalah salah satu ahli yang mencoba memberikan gambaran telekomunikasi
masa depan. Dalam bukunya yang berjudul “The age of Spiritual Machines: When
Computers Exceed Human Intelligence”, Kurzweil memprediksi bahwa pada tahun 2009
sebuah PC seharga US$ 1000 akan dapat melakukan sekitar satu triliun kalkulasi per detik.
Komputer akan menjadi sangat kecil, menempel pada pakaian dan perhiasan. Sebagian
besar transaksi bisnis rutin berada di antara manusia dan personalitas virtual. Telepon
dengan terjemahannya (translating telephone), pemanggil dan yang dipanggil bisa
menggunakan dua bahasa berbeda, akan digunakan secara luas di masyarakat. Pada tahun
2019, sebuah PC seharga US$ 1000 akan setara dengan kemampuan komputasional otak
manusia. Komputer semakin mudah dioperasikan, tidak terlihat dan menempel dimana
saja. Virtual reality sudah dalam tiga dimensi. Sebagian besar interaksi dengan komputer
sudah melalui isyarat tubuh (gesture) dan komunikasi ucapan bahasa alami dua arah.
Lingkungan realistis yang mencakup segala hal (audio, visual, dan fisik) membuat
manusia mampu melakukan sesuatu secara virtual dengan manusia lain, meskipun ada
batasan secara fisik. Manusia mulai memiliki hubungan dengan personalitas otomatis,
seperti teman dan guru. Gambar di bawah ini mengilustrasikan bagaimana komputer sudah
menempel di pakaian dan bisa berkomunikasi dengan manusia secara real time. Komputer
yang sangat kecil bisa ditempelkan di dasi dan tidak terlihat. Jika dasi tersebut kurang
rapat maka komputer akan menginformasikan ”I am tied too loosely. Please tighten”.
Ketika dompet hilang, komputer yang menempel di jaket akan menginformasikan ”Wallet
gone! Wallet gone!”.
Speech technology
Pada masa permulaan, telekomunikasi dilakukan menggunakan media dan teknologi yang
sangat sederhana. Telekomunikasi saat itu sangatlah sulit sehingga hanya bisa dilakukan
oleh kalangan tertentu (kebanyakan militer), membutuhkan waktu yang lama, biaya sangat
mahal, jangkauan yang relatif pendek (belum bisa antar daratan yang terpisah lautan) dan
tidak alami (karena hanya mengandalkan pandangan mata manusia). Pada masa
telekomunikasi elektrik, media dan teknologi semakin modern. Telekomunikasi menjadi
sangat mudah (bisa dilakukan siapa saja), cepat (real time), lebih murah, jangkauan yang
sangat luas sehingga bisa dilakukan antar daratan yang terpisah lautan. Pada masa
telekomunikasi berbasis komputer, teknologi yang digunakan semakin canggih sehingga
jauh lebih mudah, cepat, dan menjangkau seluruh pelosok dunia. Telekomunikasi sudah
bisa menghilangkan batasan lokasi sehigga dunia terasa semakin sempit. Seorang yang
tinggal di Finlandia bisa berkomunikasi dengan orang lain yang hidup di Jepang.
Tetapi, masih ada dua tantangan besar yang harus dihadapi, yakni bahasa dan biaya.
Terdapat sekitar 6500 bahasa yang digunakan manusia di seluruh dunia. Apalah artinya
teknologi telekomuniasi modern yang menjangkau seluruh dunia jika tidak semua orang
mampu menguasai bahasa yang sama (meskipun bahasa Inggris sudah dianggap bahasa
internasional). Bagi masyarakat di negara sedang berkembang, biaya komunikasi antar
negara masih terasa mahal. Oleh karena itu, para ahli terus berusaha mengembangkan
teknologi telekomunikasi yang bisa menjawab kedua tantangan tersebut. Sudah sejak lama
para pakar mengembangkan speech technology untuk keperluan tersebut. Speech
technology meliputi automatic speech recognition atau speech to text (mengenali apa yang
diucapkan manusia atau mengubah suara menjadi teks), speaker recognition (mengenali
siapa yang berbicara), speech synthesis atau text to speech (mengubah teks menjadi suara),
dan bagaimana cara pengucapannya (mengenali intonasi dan emosi pembicara). Hingga
saat ini sudah banyak teori, software maupun hardware berbasis speech technology yang
dihasilkan oleh para ahli secara personal maupun melalui lembaga riset.
Satu hasil yang sangat penting adalah Speech to Speech Machine Translation
(S2SMT) yang merupakan istilah umum yang digunakan untuk sistem translating
telephone. Ide dasar S2SMT adalah mengenali suara manusia (apa yang diucapkan)
menggunakan automatic speech recognition (ASR) sehingga suara manusia bisa diubah
menjadi teks, menerjemahkan teks yang dihasilkan ke dalam bahasa lain yang diinginkan
menggunakan Machine Translation, dan mengubah teks hasil terjemahan tersebut menjadi
suara menggunakan text to speech. Gambar berikut ini adalah ilustrasi dari S2SMT.
Gambar 2. Konfigurasi S2SMT untuk bahasa Inggris-Jerman.
Riset dan pembangunan S2SMT membutuhkan waktu lama dan biaya sangat besar.
Suatu institusi riset seperti Advanced Telecommunication Research (ATR) yang berlokasi
di Kyoto Jepang membutuhkan waktu lebih dari 20 tahun dan biaya milyaran dolar
Amerika untuk melakukan riset dan membangun S2SMT yang diberi nama MATRIX.
Saat ini MATRIX sudah bisa mengakomodasi 30.000 kata untuk penerjemahan bahasa
Inggris-Jepang. Contoh lainnya adalah Verbmobil yang dibangun di Jerman. Verbmobil
mampu menerjemahkan bahasa Inggris-Jerman dengan akurasi yang baik meskipun di
lingkungan yang bising (seperti di bandara). Verbmobil juga dilengkapi dengan sistem
pengambilan kesimpulan dari dialog yang dilakukan. AT&T juga berhasil
mengembangkan S2SMT untuk Call Center yang mampu menangani penerjemahan
bahasa Inggris-Spanyol dan Inggris-Jepang.
Bagaimana dengan speech technology untuk bahasa Indonesia? Sangat sedikit ahli
yang berminat dalam bidang ini. Hasil riset pertama di bidang ini adalah IndoTTS, sebuah
software yang bisa mengubah teks ke suara dalam bahasa Indonesia, yang dipublikasikan
pada tahun 2000 [7]. Riset yang lebih serius pada bidang ini dimulai pada tahun 2003
dimana TELKOMRisTI bekerjasama dengan ITB dan ATR Jepang membangun Dumb
and Deaf Telecommunication Systems (DDTS) [7, 8]. Sistem DDTS diaplikasikan pada
layanan Emergency Call. DDTS memungkinkan seorang yang bisu dan tuli bisa
berkomunikasi melalui komputer (mengetikkan dan membaca teks), sedangkan operator
Emergency Call berkomunikasi melalui handset telepon (berbicara dan mendengar). Pada
tahun 2005 TELKOMRisTI bekerjasama dengan STT Telkom dan ATR Jepang
membangun basis data suara dan basis data teks bahasa Indonesia yang nantinya akan
digunakan untuk membangun Large Vocabulary Continuous Speech Recognition
(LVCSR) yang sanggup mengenali lebih dari 30.000 kata. Kedua basis data tersebut
adalah yang pertama di Indonesia.
Bagaimana speech technology bisa mengurangi biaya telekomunikasi di masa
depan? Pada gambar S2SMT di atas, data yang dilewatkan antar server adalah text yang
ukurannya bisa 200 kali lebih kecil dibandingkan voice. Saat ini, hampir semua
percakapan telepon menggunakan data berbentuk voice yang berukuran 8 kilo bits per
second (Kbps). Jika ucapan kata ”lima” yang diucapkan selama satu detik bisa diubah
menjadi teks (dimana satu huruf adalah 8 bit), maka ukuran teks hanya 32 bit per detik.
Tetapi, masih banyak masalah yang harus diselesaikan. Pertama, hingga saat ini speech
technology hanya bisa dijalankan di sisi server. Belum ada perangkat telekomunikasi di
sisi client (handphone maupun fixed phone) yang menyediakan processor berkecepatan
tinggi dan memori besar untuk menjalankan S2SMT. Kedua, speech technology masih
membutuhkan riset lebih lanjut untuk menjamin performansinya (akurasi dan kecepatan)
layak dipakai secara komersial. Ketiga, komunikasi mungkin akan kurang natural karena
suara pembicara harus disintesis menggunakan mesin.
Thank Tou..........
Tidak ada komentar:
Posting Komentar