Hi Leute,
Ich suche einen Weg, wie ich vermeiden kann, dass die Latenzen der Abfrage, ob es einen bestimmten Datensatz schon git, zu groß werden. bzw. ich suche einen Weg das Problem der Einzelfragen zu umgehen.
Die Tabelle, welche ich anfrage ist mit ca. 30 Millionen Datensätzen gefällt, wenn der Import fertig ist. Sie besteht nur aus 5 Relationsbezügen ( 5 mal Integer-Zahlen ), die auf andere Tabellen zeigen. Falls der Datensatz existiert, brauch ich die ID, um jene wieder als Relation für eine 3. Tabelle zu verwenden. Im Speicher vorhalten hatte ich auch schon probiert, was jedoch nach 2 Mio. Daten scheiterte.
Hat jemand grundlegende Ansätze? Der Datenimport sollte sich im einstelligen Bereich von Stunden bewegen. Derzeit sind es knapp 2 Tage.
Der Flaschenhals ist hauptsächlich, das Nachsehen ob bereits Daten existieren.
Ich suche einen Weg, wie ich vermeiden kann, dass die Latenzen der Abfrage, ob es einen bestimmten Datensatz schon git, zu groß werden. bzw. ich suche einen Weg das Problem der Einzelfragen zu umgehen.
Die Tabelle, welche ich anfrage ist mit ca. 30 Millionen Datensätzen gefällt, wenn der Import fertig ist. Sie besteht nur aus 5 Relationsbezügen ( 5 mal Integer-Zahlen ), die auf andere Tabellen zeigen. Falls der Datensatz existiert, brauch ich die ID, um jene wieder als Relation für eine 3. Tabelle zu verwenden. Im Speicher vorhalten hatte ich auch schon probiert, was jedoch nach 2 Mio. Daten scheiterte.
Hat jemand grundlegende Ansätze? Der Datenimport sollte sich im einstelligen Bereich von Stunden bewegen. Derzeit sind es knapp 2 Tage.
Der Flaschenhals ist hauptsächlich, das Nachsehen ob bereits Daten existieren.
Kommentar