प्रशिक्षण डेटा में अधिक से बचने से कैसे बचें?

मैं जैव सूचना विज्ञान में एक परियोजना हूं जहां मेरे पास बड़ा प्रशिक्षण डेटा सेट है। इसमें लगभग 18,000 सकारात्मक और 1000 नकारात्मक उदाहरण शामिल हैं। यदि मैं इस डेटा का उपयोग प्रशिक्षण सेट के रूप में करता हूं तो सकारात्मक उदाहरण पूरी तरह से नकारात्मक उदाहरणों पर हावी हो जाएंगे। इसलिए, परीक्षण डेटा के वर्गीकरण के दौरान, मेरे नकारात्मक डेटा को भी सकारात्मक के रूप में गलत वर्गीकृत किया जाता है।

क्या इस समस्या को खत्म करने के लिए इन सकारात्मक और नकारात्मक डेटा का संतुलन सेट करने का कोई आसान तरीका है?

0
यह प्रश्न ऑफ-विषय प्रतीत होता है क्योंकि यह आंकड़ों के बारे में है। शायद इसे crossvalidated पर पूछा जाना चाहिए।
जोड़ा लेखक Dennis Jaheruddin, स्रोत
क्षमा करें दोस्तों, मैंने अपनी क्वेरी को और अधिक विशिष्ट बना दिया है।
जोड़ा लेखक sandesh, स्रोत
दिलचस्प सवाल मैंने एक त्वरित खोज की और इसे पाया, उम्मीद है कि यह मदद करता है: florianhartl.com/…
जोड़ा लेखक mattnedrich, स्रोत
@ डेनिस जेहरुद्दीन यह आंकड़ों के बारे में नहीं है। यह मशीन सीखने के बारे में है क्योंकि टैग स्पष्ट रूप से सुझाव देता है। इस डोमेन में ओवर-फिटिंग भी एक प्रमुख चिंता है। मैं मानता हूं कि यह फ़ॉर्म यह एसओ के लिए बहुत उपयुक्त नहीं है।
जोड़ा लेखक BartoszKP, स्रोत

2 उत्तर

बहुत व्यापक सवाल है, लेकिन आम तौर पर आप ओवर-फिटिंग से निपटने के लिए निम्न विधियों को मोटे तौर पर अलग कर सकते हैं:

In case of unbalanced training examples ensembles of one vs. all classifiers have been reported to yield good results (e.g. here). You can also use sampling techniques (lots of various propositions can be found via google).

0
जोड़ा
@ जोंग-ह्यून यियो हाँ, ऐसा लगता है। सहजता से यह किसी भी तरह से एक अलग श्रेणी में पड़ता है क्योंकि आप जिस मॉडल का उपयोग कर रहे हैं उसके विवरण के बावजूद आप इसे हमेशा उसी तरह उपयोग कर सकते हैं।
जोड़ा लेखक BartoszKP, स्रोत
नियमितकरण के 'प्रारंभिक रोक' सबसेट है?
जोड़ा लेखक jong-hyun Yeo, स्रोत

आप "वर्ग वजन" दृष्टिकोण का प्रयास कर सकते हैं जिसमें छोटे वर्ग को अधिक वजन मिलता है, इस प्रकार नकारात्मक लेबल वाली कक्षा को गलत वर्गीकृत करने के लिए अधिक लागत लेती है।

इसके अलावा, यदि आप लॉजिस्टिक क्लासिफायरफायर का उपयोग कर रहे हैं, तो आप सकारात्मक/नकारात्मक भविष्यवाणी की दहलीज को ट्यून कर सकते हैं, और परिशुद्धता और याद करें , फिर एफ-उपाय द्वारा उनके बीच एक व्यापार-बंद करें क्रॉस सत्यापन डेटा का उपयोग कर।

फिर भी मैं कहूंगा कि एक बहुत बड़े प्रशिक्षण सेट का उपयोग करके मॉडल के प्रशिक्षण डेटा को खत्म करने की संभावना नहीं होती है।

0
जोड़ा
हाय धन्यवाद, मैंने अपनी समस्या को और अधिक विशिष्ट बनाने में संशोधित किया है। मैं वर्गीकरण समस्या के लिए एसवीएम के आधार पर वीका का उपयोग कर रहा हूं। मैं कैल्स वजन दृष्टिकोण को असाइन नहीं कर सकता, मुझे लगता है कि मुझे डेटासेट को संतुलित और सकारात्मक नकारात्मक बनाने का तरीका ढूंढना होगा।
जोड़ा लेखक sandesh, स्रोत