Η εξάπλωση των AI bots αποτελεί πιθανότατα ένα προσωρινό φαινόμενο καθώς η φούσκα της τεχνητής νοημοσύνης είναι πιθανό να σκάσει σε λίγα χρόνια. Μέχρι τότε όμως οι ιδιοκτήτες ιστοσελίδων πρέπει να αποφασίσουμε τί θα κάνουμε με αυτό το ζήτημα.
Έχω τους λόγους μου να μην θέλω το περιεχόμενο των site μου (ορισμένων τουλάχιστων) να ευρετηριάζεται ανεξέλεγκτα από bots. Και ειδικότερα μάλιστα από AI bots των οποίων τα δεδομένα χρησιμοποιούνται για εκπαίδευση νευρωνικών δικτύων λογισμικού (γιατί στην ουσία αυτό ακριβώς συμβαίνει), παράγοντας κυρίως ψηφιακά απόβλητα και τίποτε αποδεδειγμένα πραγματικά χρήσιμο για το ευρύ κοινό (ναι είμαι από αυτούς), τουλάχιστον μέχρι σήμερα. Επίσης, ας μην ξεχνάμε και το θέμα της κατανάλωσης εύρους ζώνης αλλά και πόρων του διακομιστή.
robots.txt
Στην παρούσα φάση, τα περισσότερα site μου διαθέτουν ένα robots.txt αρχείο, στο οποίο καταγράφονται τα bots που δεν θέλω να έχουν πρόσβαση στο περιεχόμενο. Η πρακτική αυτή λειτουργεί σχετικά καλά για τα bots των σχετικά υπεύθυνων εταιρειών που σέβονται τους κανόνες.
Τι γίνεται όμως με τα bots που αγνοούν το robots.txt;
Μπλοκάρισμα
Nginx
Σκέφτηκα να προσαρμόσω ένα nginx module που να αποκλείει σε επίπεδο web server την πρόσβαση στο περιεχόμενο, βασιζόμενο στην ίδια ακριβώς λίστα, με τον καιρό όμως το συγκεκριμένο πρόσθετο απαιτούσε όλο και περισσότερο χρόνο για συντήρηση…
Μαύρη τρύπα
Μου άρεσε επίσης πολύ η ιδέα της συγκεκριμένης τεχνικής της μαύρης τρύπας και αποφάσισα να την χρησιμοποιήσω. Αρκετά έξυπνη και δημιουργική λύση που δουλεύει πολύ καλά όχι μόνο για AI bots αλλά και εν γένει για διάφορα επίμονα ή και κακόβουλα ψηφιακά σκουληκοειδή…
Σε συγκεκριμένες διαμορφώσεις όμως, παρατηρήθηκαν μικροπροβλήματα συνεργασίας με λειτουργικότητες προσωρινής αποθήκευσης (caching), με αποτέλεσμα να παράγονται false positives, 403 και 404 response codes σε περιπτώσεις που δεν θα έπρεπε.
Εν ολίγοις, για την επίλυση των αναπόφευκτων side effects, απαιτείται σπατάλη επιπλέον χρόνου για συντήρηση για άλλη μια φορά.
Αξίζει τελικά η φασαρία;
Συχνά – πυκνά ελέγχω τα logs των web server, καθώς ανακαλύπτω πράγματα που πρέπει να διορθωθούν. Στα διάφορα requests που καταγράφονται παρατηρεί κανείς διάφορα μοτίβα και τρόπους προσπάθειας πρόσβασης διάφορων κουτοπόνηρων. Δεδομένου πως:
- Ο αποκλεισμός αιτημάτων με βάση τον User Agent δεν θεωρείται επαρκής λύση, καθώς τα κακόβουλα bots τροποποιούν τους User Agents τους για να αποφύγουν την ανίχνευση,
- δεν θέλω με κανέναν τρόπο να ασχοληθώ με αποκλεισμό μέσω διεύθυνσης IP,
- χρησιμοποιοώ κατά κάνόνα, ούτως ή άλλως, το nG Firewall, το οποίο συμβάλλει πολύ σε αυτό το ζήτημα,
- στα logs μου δεν εμφανίζονται τραγικά πολλά αιτήματα από bots,
επομένως, πιστεύω ότι απλώς δεν αξίζει τον κόπο να ασχοληθώ με πολύπλοκες τεχνικές αποκλεισμού ή που απαιτούν χρονοβόρα συντήρηση.
Συμπέρασμα
Θα συνεχίσω νε ελέγχω περιοδικά τα logs, ώστε να παρακολουθώ τη συμπεριφορά των bots με την πάροδο του χρόνου. Βασικά ένα ενδιάμεσο σύστημα κάνει ήδη αυτή τη δουλειά για εμένα.
Θα επιμείνω να χρησιμοποιώ το robots.txt σε συνδυασμό με το προαναφερθέν nG Firewall και ελπίζω ότι με τον καιρό το τοπίο θα καθαρίσει, όπως γίνεται πάντα.
