वेब पेज को कर्ल या wget कैसे करें?

मैं एक रात का क्रॉन नौकरी बनाना चाहता हूं जो मेरे स्टैकओवरफ्लो पेज को लाता है और इसे पिछले दिन के पेज से अलग करता है, इसलिए मैं अपने प्रश्नों, उत्तरों, रैंकिंग इत्यादि का एक सारांश सारांश देख सकता हूं।

दुर्भाग्यवश, मुझे यह काम करने के लिए कुकीज़ का सही सेट नहीं मिला। कोई विचार?

साथ ही, जब बीटा समाप्त हो जाए, तो क्या मेरा स्टेटस पेज लॉग इन किए बिना पहुंच योग्य होगा?

0
जोड़ा संपादित
विचारों: 3

5 उत्तर

आपका स्टेटस पेज अब लॉग इन किए बिना उपलब्ध है (क्लिक करें लॉगआउट और इसे आज़माएं)। जब बीटा-कुकी अक्षम होती है, तो आपके और आपके स्टेटस पेज के बीच कुछ भी नहीं होगा।

Wget के लिए:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
जोड़ा

From Mark Harrison

और यहां क्या काम करता है ...

     

curl -s - कुकी सुबा =। https://stackoverflow.com/users

और wget के लिए:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
0
जोड़ा

और यहाँ क्या काम करता है ...

curl -s --cookie soba=. http://stackoverflow.com/users
0
जोड़ा

अछा सुझाव :)

मुझे लगता है कि आपने wget का उपयोग किया है

--load-cookies (filename)

थोड़ा सा मदद कर सकता है लेकिन एक अच्छा मकड़ी पाने के लिए एक ब्राउज़र की नकल करने के लिए मैकेनाइजेशन (पर्ल या पायथन में) जैसे कुछ का उपयोग करना आसान हो सकता है।

0
जोड़ा

मैं यह समझ नहीं पाया कि कुकीज़ को या तो काम करने के लिए कैसे प्राप्त किया जाए, लेकिन जब मैं लॉग आउट था, तो मैं अपने ब्राउज़र में अपने स्टेटस पेज पर पहुंचने में सक्षम था, इसलिए मुझे लगता है कि स्टैक ओवरफ्लो सार्वजनिक हो जाने पर यह काम करेगा।

यह एक दिलचस्प विचार है, लेकिन क्या आप अंतर्निहित एचटीएमएल कोड के अंतर भी नहीं उठाएंगे? क्या आपके पास एचटीएमएल के एक अंतर के साथ खत्म होने से बचने की रणनीति है, न कि वास्तविक सामग्री?

0
जोड़ा
अगर मेरे पास समय था, तो मैं एक सुंदर सूप (या कुछ बेहतर?) स्क्रिप्ट बनाउंगा डेटा को अच्छी तरह से स्क्रैप करने के लिए, लेकिन अभी के लिए मैं बस मुझे आवश्यक टेक्स्ट की लाइनों को बाहर कर रहा हूं।
जोड़ा लेखक Mark Harrison, स्रोत