«Η
απάντηση, μετά από
σχεδόν 15 χρόνια
έρευνας, είναι "όχι, δεν
ξέρουμε πώς να το
κάνουμε αυτό", και δεν
φαίνεται να
βελτιωνόμαστε», δήλωσε ο
Rando,
ο οποίος ειδικεύεται
στην επιθετική (adversarial)
μηχανική μάθηση.
Ωστόσο,
υπάρχουν κάποιες μέθοδοι
αξιολόγησης των κινδύνων
στην ΤΝ, όπως η πρακτική
του
red
teaming.
Πρόκειται για μια
διαδικασία όπου
εξειδικευμένα άτομα
δοκιμάζουν και εξετάζουν
τα συστήματα ΤΝ για να
εντοπίσουν πιθανά σημεία
κινδύνου — μια τακτική
που χρησιμοποιείται
συχνά στον τομέα της
κυβερνοασφάλειας.
Ο
Shayne
Longpre,
ερευνητής στην ΤΝ και
τις δημόσιες πολιτικές
και επικεφαλής της
Πρωτοβουλίας Προέλευσης
Δεδομένων (Data
Provenance
Initiative),
σημείωσε ότι σήμερα
υπάρχουν ανεπαρκείς
άνθρωποι που εργάζονται
σε ομάδες
red
teaming.
Παρόλο
που
startups
ΤΝ χρησιμοποιούν
αξιολογητές εντός της
εταιρείας ή εξωτερικούς
συνεργάτες για τις
δοκιμές, το άνοιγμα της
διαδικασίας σε τρίτα
μέρη όπως απλοί χρήστες,
δημοσιογράφους,
ερευνητές και
ethical
hackers
θα προσέφερε μια πιο
σφαιρική και αυστηρή
αξιολόγηση, σύμφωνα με
μελέτη που συνέγραψε ο
Longpre
με άλλους ερευνητές.
«Κάποια
από τα σφάλματα στα
συστήματα απαιτούσαν
δικηγόρους, γιατρούς ή
επιστήμονες με
εξειδίκευση στο εκάστοτε
πεδίο για να
διαπιστώσουν αν πράγματι
πρόκειται για λάθος,
επειδή ο μέσος άνθρωπος
πιθανόν να μην είχε την
απαραίτητη γνώση»,
ανέφερε ο
Longpre.
Η
υιοθέτηση τυποποιημένων
αναφορών για ‘σφάλματα
ΤΝ’, κατάλληλων κινήτρων
και μηχανισμών για τη
διάδοση πληροφοριών
σχετικά με αυτά τα
σφάλματα συγκαταλέγονται
στις προτάσεις της
μελέτης.
Δεδομένου ότι τέτοιες
πρακτικές έχουν ήδη
εφαρμοστεί με επιτυχία
σε άλλους τομείς όπως η
ασφάλεια λογισμικού,
«χρειαζόμαστε κάτι
αντίστοιχο και στην ΤΝ»,
πρόσθεσε ο
Longpre.
Η
σύνδεση αυτής της
προσέγγισης με τη
διακυβέρνηση, τις
πολιτικές και άλλα
εργαλεία μπορεί να
προσφέρει καλύτερη
κατανόηση των κινδύνων
που ενέχουν τα εργαλεία
ΤΝ, τόσο για τους
χρήστες όσο και για τις
ίδιες τις τεχνολογίες,
σύμφωνα με τον
Rando.
Project
Moonshot:
Συνδυάζοντας τεχνικές
λύσεις και πολιτική
Το
Project
Moonshot
είναι ένα τέτοιο
παράδειγμα προσέγγισης,
συνδυάζοντας τεχνικές
λύσεις με πολιτικά
εργαλεία. Ξεκίνησε από
την Αρχή Ανάπτυξης Μέσων
Ενημέρωσης και
Επικοινωνιών της
Σιγκαπούρης (Infocomm
Media
Development
Authority)
και είναι μια
εργαλειοθήκη αξιολόγησης
για μοντέλα γλώσσας
μεγάλης κλίμακας (LLMs),
που αναπτύχθηκε με τη
συνεργασία εταιρειών
όπως η
IBM
και η
DataRobot
με έδρα στη Βοστώνη.
Η
εργαλειοθήκη ενσωματώνει
benchmarking,
red
teaming
και βασικές γραμμές
δοκιμής. Περιλαμβάνει
επίσης μηχανισμό
αξιολόγησης που
επιτρέπει στις
startups
να διασφαλίζουν ότι τα
μοντέλα τους είναι
αξιόπιστα και δεν
προκαλούν βλάβη στους
χρήστες, δήλωσε ο
Anup
Kumar,
επικεφαλής μηχανικής
δεδομένων και ΤΝ για την
IBM
Ασίας-Ειρηνικού.
Η
αξιολόγηση είναι μια
συνεχής διαδικασία που
πρέπει να γίνεται τόσο
πριν όσο και μετά την
κυκλοφορία ενός
μοντέλου, τόνισε ο
Kumar,
ο οποίος σημείωσε ότι η
ανταπόκριση στο
toolkit
ήταν ανάμεικτη.
«Πολλές
startups
το υιοθέτησαν επειδή
είναι ανοικτού κώδικα
και το αξιοποίησαν. Αλλά
πιστεύω πως μπορούμε να
κάνουμε πολύ
περισσότερα».
Στο
μέλλον, το
Project
Moonshot
στοχεύει να προσαρμοστεί
σε συγκεκριμένα κλαδικά
σενάρια χρήσης και να
υποστηρίζει δοκιμές σε
πολλές γλώσσες και
πολιτισμικά πλαίσια.
Ανάγκη
για αυστηρή αξιολόγηση
πριν από την κυκλοφορία
νέων μοντέλων
Ο
Pierre
Alquier,
καθηγητής Στατιστικής
στη Σχολή Διοίκησης
Επιχειρήσεων
ESSEC
Asia-Pacific,
σημείωσε ότι οι
τεχνολογικές εταιρείες
σπεύδουν να
κυκλοφορήσουν τα
τελευταία μοντέλα ΤΝ
χωρίς επαρκή αξιολόγηση.
«Όταν
μια φαρμακευτική
εταιρεία αναπτύσσει ένα
νέο φάρμακο, απαιτούνται
μήνες δοκιμών και
αυστηρές αποδείξεις ότι
είναι χρήσιμο και
ακίνδυνο προτού λάβει
έγκριση από τις αρχές»,
τόνισε, προσθέτοντας ότι
μια παρόμοια διαδικασία
ισχύει και στον τομέα
της αεροπορίας.
Τα
μοντέλα ΤΝ θα πρέπει να
πληρούν ένα αυστηρό
σύνολο προϋποθέσεων πριν
εγκριθούν, είπε ο
Alquier.
Η απομάκρυνση από
γενικής χρήσης ΤΝ προς
την ανάπτυξη εργαλείων
για πιο εξειδικευμένες
εργασίες θα διευκόλυνε
την πρόβλεψη και τον
έλεγχο της κακής χρήσης
τους, ανέφερε.
«Τα
μεγάλα γλωσσικά μοντέλα
μπορούν να κάνουν
υπερβολικά πολλά
πράγματα, αλλά δεν είναι
στοχευμένα σε
συγκεκριμένα καθήκοντα»,
πρόσθεσε. Ως εκ τούτου,
«ο αριθμός πιθανών
καταχρήσεων είναι πολύ
μεγάλος για να τις
προβλέψουν όλοι οι
προγραμματιστές».
Αυτό
καθιστά δύσκολο τον
καθορισμό του τι είναι
ασφαλές και τι όχι,
σύμφωνα με έρευνα στην
οποία συμμετείχε ο
Rando.
Οι
τεχνολογικές εταιρείες
δεν θα πρέπει να
υπερβάλλουν
ισχυριζόμενες ότι «οι
άμυνές τους είναι
καλύτερες απ’ ό,τι
πραγματικά είναι»,
προειδοποίησε ο
Rando.
Πηγή:
CNBC