अरबों रिकॉर्ड में डुप्लिकेट रिकॉर्ड खोजें

मेरे पास डेटा के दस अरब रिकॉर्ड हैं, और प्रत्येक रिकॉर्ड में आईडी नामक फ़ील्ड है। आईडी लंबे प्रारूप में है, कुछ ऐसा है:

217775404914720768
310426682752372736
214675181568921600

मेरा काम इस डेटासेट में डुप्लिकेट आईडी ढूंढना है। मैंने बिटमैप की कोशिश की है, ऐसा लगता है कि यह काम नहीं करता है। ब्लूमफिल्टर के लिए, मुझे चिंता है कि यह त्रुटि का कारण बन सकता है क्योंकि मेरा डेटासेट इतना बड़ा है। तो कोई बेहतर विचार?

0
मान लीजिए कि मान ऊपर 18 उदाहरण की तरह लंबाई में 18 वर्ण है।
जोड़ा लेखक GodoorSun, स्रोत
मुझे रिकॉर्ड पढ़ने और इसे स्वयं लागू करने की जरूरत है।
जोड़ा लेखक GodoorSun, स्रोत
मुझे MapDB नामक टूल मिला है, और अब समस्या को हल करने के लिए इसे चला रहा है। जावा में संग्रह काम नहीं किया।
जोड़ा लेखक GodoorSun, स्रोत
आईडी की मूल्य सीमा क्या है? क्या आपको "लंबे प्रारूप" के साथ मतलब है कि वे मनमानी 64 बिट संख्याएं हैं, या वे अधिकतम मूल्य से सीमित हैं (2 ^ 64-1)?
जोड़ा लेखक jarnbjo, स्रोत
क्या आप डेटाबेस का उपयोग कर सकते हैं या आपको इसे स्वयं लागू करना है?
जोड़ा लेखक jarnbjo, स्रोत
क्यूं कर? जब तक आपके पास रैम की भारी मात्रा या वास्तविक खोज के लिए खर्च करने में बहुत अधिक समय नहीं है, तो समस्या हल करने के लिए बहुत मुश्किल नहीं है।
जोड़ा लेखक jarnbjo, स्रोत