Fake News: Η τεχνητή νοημοσύνη σύντομα θα μπορεί να μιμηθεί την ανθρώπινη φωνή

0
884

Το 2018, ο φόβος των ψεύτικων ειδήσεων (fake news) θα υποχωρήσουν σε σύγκριση με τη νέα τεχνολογία που μπορεί να πλαστογραφήσει την ανθρώπινη φωνή. Αυτό θα μπορούσε να δημιουργήσει εφιάλτες ασφαλείας. Ακόμα χειρότερα, θα μπορούσε να απομακρύνει από τον καθένα μας ένα μέρος της μοναδικότητάς μας. Ωστόσο, εταιρείες, πανεπιστήμια και κυβερνήσεις εργάζονται ήδη με άσχημο τρόπο για να αποκωδικοποιήσουν την ανθρώπινη φωνή για πολλές εφαρμογές. Αυτά ποικίλλουν από την καλύτερη ενσωμάτωση των συσκευών μας στο internet-to-things, επιτρέποντας πιο φυσικές αλληλεπιδράσεις μεταξύ ανθρώπων και μηχανών. Τα τεχνολογικά αποδεκτά έθνη (οι ΗΠΑ, η Κίνα και η Εσθονία) έχουν περάσει σε αυτό το χώρο και οι τεχνολογικοί γίγαντες όπως το Google, το Amazon, η Apple και το Facebook έχουν επίσης ειδικά έργα με φωνή.

 

Δεν είναι τόσο δύσκολο να αναπτύξουμε μια τεχνητή φωνή, στη συνέχεια να μοντελοποιήσουμε και να αναπαράγουμε προφορικές λέξεις και φράσεις. Θυμάμαι που ήταν έκπληκτος όταν η αρχική μου Apple Macintosh με πληροφόρησε για την ημερομηνία και την ώρα σε έναν ξηρό, ψηφιακό τόνο. Η δημιουργία μιας φυσικά ηχητικής φωνής περιλαμβάνει αλγόριθμους που είναι πολύ πιο πολύπλοκοι και υπολογιστικά ακριβοί. Αλλά αυτή η τεχνολογία είναι διαθέσιμη τώρα.

 

Όπως θα επιβεβαιώσει οποιοσδήποτε παθολόγος ομιλίας, η ανθρώπινη φωνή είναι πολύ περισσότερο από δονήσεις φωνητικής χορδής. Αυτές οι δονήσεις προκαλούνται από τον αέρα που διαφεύγει από τους πνεύμονές μας και αναγκάζοντας να ανοίξουμε τις φωνές μας, μια διαδικασία που παράγει τόνους τόσο μοναδικό όσο ένα δακτυλικό αποτύπωμα εξαιτίας των χιλιάδων κυματομορφών που προκαλούνται ταυτόχρονα και στη χορωδία. Αλλά η μοναδικότητα της φωνής συνδέεται επίσης με τις ιδιότητες που σπάνια θεωρούμε, όπως ο τόνος, η καμπυλότητα και η βηματοδότηση. Αυτές οι πτυχές της ομιλίας μας είναι περιστασιακές, συχνά υποσυνείδητες και κάνουν όλη τη διαφορά στον ακροατή.

 

Αυτή η πρόκληση εξηγεί την έγκαιρη χρήση του emoji σε μηνύματα κειμένου. Ήταν απαραίτητες για να διευκρινιστεί η πρόθεση ενός γραπτού μηνύματος, διότι είναι εξαιρετικά δύσκολο να ερμηνεύσει κανείς την αληθινή έννοια του λόγου συνομιλίας που γράφεται αντί του προφορικού λόγου.

 

Λεπτομέρειες, όπως ο ενοχλητικός λόγος, η κλίση και η βηματοδότηση είναι ιδιαίτερα δύσκολο να μοντελοποιηθούν, αλλά μπορούμε να πούμε ότι πλησιάζουμε. Το Project Voco της Adobe αναπτύσσει αυτό που είναι ουσιαστικά ένα Photoshop των ηχητικών κυμάτων. Λειτουργεί αντικαθιστώντας κυματομορφές (waveforms) για pixels για να παράγει κάτι που ακούγεται φυσικό. Η εταιρεία στοιχηματίζει ότι, αν μπορεί να καταγραφεί αρκετός λόγος ενός ατόμου, θα απαιτηθεί κάτι παραπάνω από μια ενέργεια αποκοπής και επικόλλησης για να αλλάξει η καταγραφή της φωνής του. Τα αρχικά αποτελέσματα της Adobe από το Voco είναι απολαυστικά, αλλά και ενθουσιώδη. Η αντοχή του πρωτοτύπου δείχνει πόσο σύντομα οι πολίτες δεν θα είναι σε θέση να διακρίνουν μεταξύ πραγματικών φωνών και ψεύτικων. Αν έχετε αποθηκεύσει αρκετά δείγματα στη βιβλιοθήκη δεδομένων σας, τότε μπορείτε να κάνετε οποιονδήποτε να φαίνεται σχεδόν τίποτα.

 

Οι εταιρείες τεχνολογίας και οι επενδυτές στοιχηματίζουν στην ιδέα ότι αυτά τα συστήματα θα έχουν τελικά τεράστια εμπορική αξία. Ακόμη και πριν εμφανιστεί αυτή η κατάσταση, αυτό το συγκεκριμένο είδος τεχνολογίας θα παρουσιάσει μεγάλους κινδύνους. Μέχρι το 2018, ένας φονικός ηθοποιός μπορεί εύκολα να δημιουργήσει μια αρκετά καλή φωνητική πλαστοπροσωπία για να εξαπατήσει, να μπερδέψει, να εξαγνίσει ή να κινητοποιήσει το κοινό.

 

Οι περισσότεροι πολίτες σε ολόκληρο τον κόσμο θα είναι απλά ανίκανοι να διακρίνουν τη διαφορά ανάμεσα σε ένα ψεύτικο ήχο και στο πραγματικό πράγμα. Όταν σκεφτείτε τη γενικευμένη δυσπιστία των μέσων μαζικής ενημέρωσης, των θεσμών και των πύργων εμπειρογνωμόνων, τα ακουστικά τεκμήρια θα μπορούσαν να είναι περισσότερο αποτρεπτικά. Θα μπορούσε να ξεκινήσει πολέμους. Φανταστείτε τις συνέπειες του παραγόμενου ήχου ενός παγκόσμιου ηγέτη που κάνει παραπονετικές παρατηρήσεις, υποστηριζόμενες από επεξεργασμένο βίντεο. Το ερώτημα είναι, το 2018, οι πολίτες ή οι στρατιωτικοί, θα μπορούν να καθορίσουν ότι είναι ψεύτικο;