Διαβάζω στο pestaola.gr για το πρόβλημα του να τσεκάρεις το akismet στο wordpress για σχόλια που έχουν χαρακτηριστεί ως spam αλλά δεν είναι. Πρόκειται όντως για κάτι πολύ βαρετό ειδικά αν μαζεύονται 100-200 spam comments την μέρα και πολύ περισσότερο σε περιόδους “έξαρσης” (είναι μερικές μέρες που λες και βρίσκεσαι στο μάτι του κυκλώνα, τα spam comments μπαίνουν με τρομακτική ταχύτητα.
Προσωπικά έχω εγκαταλείψει την προσπάθεια να τα τσεκάρω ένα-ένα. Έχω βρει όμως ένα μικρό κόλπο που με διευκολύνει να βρίσκω αρκετά (όλα;) αυτά που χαρακτηρίστηκαν λανθασμένα ως spam. Η ιδέα βασίζεται στο ότι (ευτυχώς για την ώρα) τα spam δεν είναι ποτέ στα ελληνικά. Ψάχνω λοιπόν για ελληνικά κάνοντας αναζήτηση για φωνήεντα, “α”, “ό”. Είναι αδύνατο να έχει γράψει κάποιος ελληνικά χωρίς να έχει χρησιμοποιήσει ένα φωνήεν, και απίθανο να έχει γράψει 1-2 λέξεις χωρίς “α” ή “ό”. Έτσι εντοπίζω τα ελληνικά, τα ξεμαρκάρω από spam και μετα… delete all!
Δεν το είχα σκεφτεί αυτό, πολύ καλό! Εγώ πρότεινα να χωρίσουν το queue σε 2 μέρη. α) μηνμύματα που περιέχουν πάνω από χ αριθμό links β) μηνύματα με μικρότερο αριθμό links. Έτσι είναι ο έλεγχος είναι ευκολότερος και τα query στην DB λιγότερα [νομίζω],
Ακριβώς την ίδια τεχνική είχα χρησιμοποιήσει κι εγώ όταν παίζοντας με το Yahoo! Pipes είχα φτιάξει feed με τα ελληνικά πόστς μου παλαιότερα.
Περιέργως, παρα την συνεχώς αυξανόμενη κίνηση στο cosmix.org, 100-200 σπαμ ημερισίως έχω να ‘δω’ από τα Χριστούγεννα. Κι αυτό καθώς έχω ενεργοποιήσει την επιλογή του Akismet για αυτόματη διαγραφή των spam σε posts > ενός μήνα. Ενώ βλέπω τον συνολικό αριθμό να ανεβαίνει αρκετά γρήγορα, πλέον δεν ασχολούμαι ιδιαίτερα. Ίσως απλά να είμαι τυχερός.
Τώρα σχετικά με τις εξάρσεις στις οποίες αναφέρεσαι: καθώς κάνω geotag κάθε spam που λαμβάνω και κρατώ στατιστικά, έχω παρατηρήσει πως, κατα καιρούς, παρόμοια μηνύματα spam δεν έχουν κάποια γεωγραφική σχέση μεταξύ τους (δηλ. μάλλον πηγάζουν από κάποιο botnet) ενώ σε άλλες περιπτώσεις υπάρχει σαφής σχέση και περαιτέρω εξέταση δείχνει πως προέρχονται από το ίδιο netblock (τελευταία π.χ. λαμβάνω πάρα πολλά μηνύματα spam από συγκεκριμένο netblock την Ισπανία). Ίσως στο μέλλον το akismet να μπορεί να λάβει υπ’όψην του τη προέλευση του μηνύματος ως (weighted) κριτήριο στη κρίση του και να μπορεί καλύτερα να διακρίνει μεταξύ κανονικών και ανεπιθύμητων σχολίων βάσει *και* αυτής.
To κόλπο με τα “α” , “ε” και “σ” εφαρμόζω κι εγώ και γλυτώνω το βασανιστικό scroll down στο akismet.
Το οποίο δεν πιάνει βέβαια εάν έχει bilingual blog :( Εγώ πλέον πατάω delete all στεγνά.
Επίσης δεν πιάνει όποτε μιλάς σε άτομα που δεν καταλαβαίνουν. Η μόνη δουλειά που κάνω στο http://allsportsblog.gr είναι να τσεκάρω τα spam ( που παραδόξως παρόλο που είναι νεώτερο site από το politikoblog.gr έχει 15 φορές παραπάνω spam… ) Ενώ ζητούσα να μην γράφουν σε greeklish… Δεν έγινε αυτό ποτέ κατανοητό. Έχω πάψει κάθε προσπάθεια και αν 6 ώρες κοιτάω 3 σελίδες spam. Το είχα σκεφτεί αλλά Παναγιώτη μπράβο που το έγραψες :)