Hi
Ich habe die Freude und Ehre unentgeltlich für eine Verband das User-Interface zu einer Informationsdatenbank zu modifizieren.
Die Datenbank speichert u. a. Suchbegriffe,
die manuell von unterschiedlichen Usern für jedes einzelne Infodokument (PDFs)
eingepflegt worden sind. Nun ist das Problem aufgekommen, dass die User, die nur suchen und selber nicht einpflegen, nur selten auf die richtigen Suchbegriffe kommen, nach denen man suchen könnte.
Also soll ich jetzt dem User eine Liste mit allen möglichen Suchbegriffen einblenden, damit er es schneller peilt.
Dummerweise sind die Suchbegriffe nicht einheitlich eingetragen:
1) Subvention Hausbauer
2) Bundesgrichtshof VIII Senat latente Steuern Drohverlustrückstellung
3) Bundesgrichtshof zur Abschreibung von Perücken
4) Umsatzsteuer, Massenmailings,
Soll heißen es gibt Mehrfachnennungen, Trennung durch Leerzeichen und Komma, durch Leerzeichen zusammenhängende Begriffe etc.
Jetzt mal abgesehen von einem neuen Datenbankdesign (ich werde nicht bezahlt), wie würdet Ihr die Begriffe möglichst sinnvoll auslesen, so dass die
Suchbegriffauswahl halbswegs zusammenhängend und ohne Mehrfachnennungen rauskommt.
Mein aktueller Ansatz wäre den ganzen Käse doppelt exploden mit einmal Komma und einmal Leer und dann per array_unique die doppelten rausfiltern.
Das ist inhaltlich nicht direkt, was es sein soll und wahrscheinlich auch nicht sehr performant aber hm....
Ich habe die Freude und Ehre unentgeltlich für eine Verband das User-Interface zu einer Informationsdatenbank zu modifizieren.
Die Datenbank speichert u. a. Suchbegriffe,
die manuell von unterschiedlichen Usern für jedes einzelne Infodokument (PDFs)
eingepflegt worden sind. Nun ist das Problem aufgekommen, dass die User, die nur suchen und selber nicht einpflegen, nur selten auf die richtigen Suchbegriffe kommen, nach denen man suchen könnte.
Also soll ich jetzt dem User eine Liste mit allen möglichen Suchbegriffen einblenden, damit er es schneller peilt.
Dummerweise sind die Suchbegriffe nicht einheitlich eingetragen:
1) Subvention Hausbauer
2) Bundesgrichtshof VIII Senat latente Steuern Drohverlustrückstellung
3) Bundesgrichtshof zur Abschreibung von Perücken
4) Umsatzsteuer, Massenmailings,
Soll heißen es gibt Mehrfachnennungen, Trennung durch Leerzeichen und Komma, durch Leerzeichen zusammenhängende Begriffe etc.
Jetzt mal abgesehen von einem neuen Datenbankdesign (ich werde nicht bezahlt), wie würdet Ihr die Begriffe möglichst sinnvoll auslesen, so dass die
Suchbegriffauswahl halbswegs zusammenhängend und ohne Mehrfachnennungen rauskommt.
Mein aktueller Ansatz wäre den ganzen Käse doppelt exploden mit einmal Komma und einmal Leer und dann per array_unique die doppelten rausfiltern.
Das ist inhaltlich nicht direkt, was es sein soll und wahrscheinlich auch nicht sehr performant aber hm....
Kommentar