Was genau meinst Du?
Ich würde Zeichenketten unter 4 Zeichen rausschmeißen, oder wenigsten bekannte Füllwörter: Artikel, etc.
Dann werden die Begriffe normalerweise auf Ihren Wortstamm heruntergebrochen.
Und dann wird gezählt.
Das würde ich etwa so machen:
1. alle Sonderzeichen aus dem OText raus oder in Whitespace umwandeln
2. alle Wörter nach Leerzeichen in eine Array auftrennen, leere Einträge entfernen
3. Das Array durchlaufen und dabei ein zweites anlegen das die Einträge jedes einzelnen Wortes zählt:
PHP-Code:
<?
$iGlobCounter = count ($aWords);
foreach ($aWords as $sEntry)
{
@ $aCounter[$sEntry] ++;
}
in array_keys($aCounter) hast DU jetzt alle enthaltenen Worte,
in count ($aCounter) die Anzahl aller vorh. Worte und per
$aCounter['xyz'] / $iGlobCounter kannst Du die statistische Häufigkeit auf den Gesamttext berechnen.
(Jetzt nur mal kurz, keine Garantie auf Richtigkeit)
Irgendwie sowas?