Bir spam algılama hizmet için en iyi dil seçimi

4 Cevap php

Ben spam biraz olsun yaklaşık 20 ya da öylesine aktif bloglar var. Ben Kayit Ol! Nefret gibi alternatif çok akıllı spam filtreleme değildir. Ben bütün bloglar kullanmak istenmeyen kontrol hizmeti gibi basit bir REST API kurmak istiyorum. Ben IP blokları birleştirmek ve bu Akisment gibi 3. parti spam algılama hafifletebilecek Bu şekilde, Mollom, Defensio ve bazen gelecekte benim kendi spam tespiti yazmak gerçekten çok ilginç bazı spam algılama algoritmaları içine kafamı olsun.

Seçim benim dil kendimi oldukça yetkin düşünün ve gerçekten derin kazmak ve bir çözüm ile gelebilir, PHP. Bu proje, hissediyorum, başka bir dil öğrenmek için iyi bir egzersiz olarak kullanılabilir. Herkes bizim kurtarıcı onun önümüzdeki gibi bunlardan bahsederken akla gelen 2 büyük Ruby on Python ve Ruby vardır. Bu çoğunlukla sadece bir API ve hiçbir yönetici veya kamu bakan bir şey vardır, basit bir http sunucusu çalıştıran temel Python gibi görünüyor beri gitmek için yol gibi görünüyor. Ben bir şey eksik? Size, büyük bir topluluk ne önerirsiniz? Senin dilini, kitap ve en iyi uygulamaların öneriler duymak isterim.

Bu ölçek vardır ve ben bu düşünce ile yazmak istiyorum. Şu anda muhtemelen 3 partinin ücretsiz planları kullanmak mümkün olurdu, ama yakında ben aslında kendi üzerinde düşünmeye şeyi genişletmek gerekiyor. Şimdi ben üzerinde bazı gerçek analiz yapmak kadar ben sadece bir MySQL veritabanı her şeyi saklamak düşünüyorum. Teşekkürler!

4 Cevap

Python bazı avantajları vardır.

  1. Python çok HTTP sunucusu çerçeveler vardır. WSGI reference implementation bakmak, ve web istekleri işlemek için WSGI standardını kullanmayı öğrenmek. Çok temiz ve genişletilebilir bulunuyor. O bunu bir yanıt formüle zamanı işleme bir aşamaya kadar bu WSGI tüm istek ayrıntıları ekleme konusunda görmek için çalışmanın biraz alır.

  2. MIME email parsing oldukça basittir.

  3. Bundan sonra, spam tespiti için site kara listeye ve içerik filtreleme kullanarak olacak.

    • Bir site kara liste büyük, süslü RDBMS olabilir. Ya da alan adları ve IP adresleri basit turşu Python Set olabilir. Ben bellekte yaşayan basit bir turşu dizi nesne öneririz. Bu hızlı. Sen sığınakta hizmet yenileme zorlar bazı GET isteğinin alınması üzerine bir kaynak dosyadan bu seti yeniden olabilir.

    • Metin filtreleme sadece zordur. I SpamBayes ile başlamak istiyorum.

Benim ilk soru - why don't you just use one of those three services you listed? Onlar tam olarak ne istediğinizi yapmak gibi görünüyor. Alaycı, ama tek başına çalışan bir zaman makul bir miktarda, özellikle gelir kaynağını dikkate alınarak, bu web sitelerinde kullanılan algoritma tasarımı yazılım mühendisleri dövmek şüphe için üzgünüm onlar bunu ne kadar iyi bağlıdır.

Sonra tekrar, sadece onlar = P. daha zeki olabilir Ben yargıç değilim. Her durumda, ben size belirtilen nedenlerden dolayı, python öneririm - süslü bir ortak arabirim gerekmez, bu nedenle bu alanda mükemmeliyet Python eksikliği önemli değildir. Python da metin işleme yapmak için iyi olduğunu ve veritabanlarını kullanarak büyük yerleşik bağları vardır (siz gerekli olduğunu düşünüyorsanız, elbette, MySQL yükleyebilirsiniz örneğin sqlite,).

Downsides: bu algoritmalar almak nasıl sofistike bağlı olarak, biraz yavaş alabilirsiniz.

Ben naçizane sonra, istenmeyen kazandı mevcut bir spam filtresi OSBF-Lua yararlanabiliriz, çünkü Lua, zaten web sunucuları ile entegre bir büyük, hızlı dil var, ama aynı zamanda değil, çünkü sadece tavsiye üst üste birkaç yıl için yarışmalar-filtreleme. Fidelis Assis ve e-posta ötesinde modeli genelleştirmek için çalışırken bir sürü iş koyduk ve biz Lua için tasarlanmış ne app, ile entegre sizinle çalışmak mutluluk duyarım.

Ölçekleme gibi, eğitim modunda bir 2006 makine üzerinde saniyede yüzlerce e-posta işleme, böylece bile yoğun bir web sitesi için çok iyi çalışmak gerekir.

Biz posta başlıkları olmadan şeyler sınıflandırılmasına sizinle çalışmak gerekir, ama ben zaten bu yönde iterek oldum. Daha fazla bilgi için nr@cs.tufts.edu yazınız. (Evet, ben want insanlar bana spam göndermek için. Bu araştırma için değil!)

Ben bu kadar kullanım kolaylığı ve yüksek doğruluk için Akismet tavsiye olurdu. Bir kullanıcı bir metin verilmiş blob spam ise sadece WordPress.com API anahtarı ve bir API çağrısı ile belirleyebilirsiniz. Ben aynı API kullanan WordPress için Akismet eklentisi kullanarak oldum ve geçen yıl ya da öylesine için onunla yıldız sonuçları olmuştur.

Zend Framework entegrasyonu oldukça basit yapmalıdır çerçevesinin geri kalanından bağımsız kullanabileceğiniz harika bir Akismet PHP sınıfı vardır. Dokümantasyon yanı sıra, oldukça kapsamlı.