Bilgisayar Trend Başlıklar

4 Cevap php

Diyelim ki çeşitli kriterlere dayalı twitter tweets toplama ve yerel mysql veritabanında bu tweets saklamak ediyorum diyelim. Ben uzunluğu 1-3 kelime her yerde olabilir, twitter gibi bilgisayar trend konulardan, muktedir istiyorum.

Bu PHP ve MySQL gibi bir şey yapmak için bir komut dosyası yazmak mümkün mü?

Ben terimlerin sayıları almak mümkün kez terimleri "sıcak" olan hesaplamak için nasıl yanıtlayan bulduk, ama ben ilk kısmında sıkışıp kaldım. Nasıl ben nasıl uzunluğu 1-3 kelimeler veritabanında terimlerin sıklığının sayabilirsiniz, veritabanında verileri saklamak gerekir?

4 Cevap

trending topic receipt from me :
1. fetch the tweets
2. split each tweets by space into n-gram (up to 3 gram if you want 3 words length) array
3. filter out each array from url, @username, common words and junk chars
4. count all unique keyword / phrase frequency
5. mute some junk word / phrase

evet, php ve bunu yapabilirsiniz mysql ;)

How about decomposing your tweets first in single word tokens and calculate for every word its number of occurrences ? Once you have them, you could decompose in all two word tokens, calculate the number of occurrences and finally do the same with all three word tokens.

Ayrıca saymak istemiyorum kelimelerin sözlükteki çeşit eklemek isteyebilirsiniz

Nelere ihtiyacınız var ya da bir

  1. belge sınıflandırma, ya da ..
  2. Otomatik etiketleme

Muhtemelen ikincisi. Ve ancak o zaman kendi popülerlik sayabilirsiniz.

Veya Dominik tersini yapmak ve, boşluk ve tüm eşleşmek istediğiniz cümleleri bir dizi listesini depolar. Onlara olarak regex dizeleri yazın. Veritabanında her satır (dosya, sql tablo, ne olursa olsun), süreç regex için, saymak bulabilirsiniz.

Bu trivially bunu yapmak istiyorum etrafında hangi şekilde bağlıdır: - her şeyi ortak olan olduğunu, dolayısıyla ifade arama gerçekten trend ne bulma veya set. Bir durumda, size ilgi olmayabilir ve geniş bir blocklist gerekir bir sürü bulabilirsiniz - diğer durumda, size büyük bir beyaz liste gerekir.

Bunun ötesine gitmek için, söylenenlerin anlamını belirlemek için doğal dil işleme araçları gerekir.