Wählen Sie Ihr Arsenal: Kostenlose Proxys in freier Wildbahn
Auf der digitalen Agora stehen Stellvertreter als flüchtige Wächter da – Tore zu Anonymität, Freiheit und leider auch Fragilität. Der freie Stellvertreter, dieses schwer fassbare Wesen, bietet zwar Durchgang, aber zu einem Preis: Instabilität, Drosselung oder im schlimmsten Fall Verrat. Betrachten wir die Landschaft mit kartesianischem Verständnis:
Proxy-Typ | Anonymität | Geschwindigkeit | Zuverlässigkeit | Beispielquelle |
---|---|---|---|---|
HTTP/HTTPS-Proxys | Medium | Mäßig | Niedrig | https://free-proxy-list.net/ |
SOCKS4/5-Proxys | Hoch | Niedrig | Sehr niedrig | https://socks-proxy.net/ |
Transparente Proxys | Keiner | Schnell | Niedrig | https://spys.one/ |
Warnung: Kostenlose Proxys sind öffentlich und können gefährdet sein. Senden Sie niemals Anmeldeinformationen oder vertrauliche Daten über sie.
Proxy-Ernte: Das Ritual
Der Tanz mit dem Vergänglichen erfordert Automatisierung. Lasst uns Python und seine Akolythen beschwören, Anfragen
Und Schöne Suppe
, um Proxys abzurufen:
Importiere Anfragen von bs4 importiere BeautifulSoup def fetch_proxies(): url = 'https://free-proxy-list.net/' soup = BeautifulSoup(requests.get(url).content, 'html.parser') proxies = [] für Zeile in soup.find('table', id='proxylisttable').tbody.find_all('tr'): tds = row.find_all('td') wenn tds[6].text == 'yes': # Nur HTTPS proxy = f"{tds[0].text}:{tds[1].text}" proxies.append(proxy) return proxies
Proxies im Wechsel: Die Kunst der Tarnung
Amazon und eBay, diese digitalen Festungen, schwingen Bannhämmer mit mechanischer Präzision. Die Lösung? Proxys rotieren, User-Agents ändern und Verzögerungen einbauen – eine Choreografie der Irreführung.
importiere zufällige Importzeit-Proxys = fetch_proxies() user_agents = [ # Ein Strauß von Benutzeragenten 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...', # Mehr hinzufügen ] def get_random_headers(): return {'User-Agent': random.choice(user_agents)} def get_random_proxy(): return {'http': f"http://{random.choice(proxies)}", 'https': f"http://{random.choice(proxies)}"} def request_with_proxy(url): für Versuch im Bereich(5): Proxy = get_random_proxy() Header = get_random_headers() Versuch: Antwort = requests.get(url, Header=Header, Proxys = Proxy, Timeout = 5), wenn response.status_code == 200: returniere response.text, außer Ausnahme: Weiter mit time.sleep(random.uniform(1, 3)) returniere None
Amazon Scraping: Navigieren durch das Labyrinth
Amazon setzt Anti-Bot-Maßnahmen ein: CAPTCHAs, dynamische Inhalte und IP-Sperren. Konzentrieren Sie sich bei klein angelegtem Scraping auf Produktlisten. Bei größeren Aktivitäten sollten Sie ethische und rechtliche Grenzen beachten.
Beispiel: Extrahieren von Produkttiteln
von bs4 importiere BeautifulSoup def scrape_amazon_product_title(asin): url = f"https://www.amazon.com/dp/{asin}" html = request_with_proxy(url) wenn nicht html: drucken("Seite konnte nicht abgerufen werden.") returniere None soup = BeautifulSoup(html, 'html.parser') title = soup.find('span', id='productTitle') returniere title.text.strip() wenn Titel sonst None asin = 'B08N5WRWNW' # Beispiel-ASIN drucken(scrape_amazon_product_title(asin))
eBay Scraping: Durch den Basar
eBay, ein weniger wachsamer Wächter, setzt immer noch Ratenbegrenzungen und Bot-Erkennung ein – weniger streng, aber dennoch vorhanden. Konzentrieren Sie sich auf die Artikelseite (z. B. https://www.ebay.com/itm/ITEMID).
Beispiel: Artikelpreis extrahieren
def scrape_ebay_price(item_id): url = f"https://www.ebay.com/itm/{item_id}" html = request_with_proxy(url) wenn nicht html: print("Seite konnte nicht abgerufen werden.") return None soup = BeautifulSoup(html, 'html.parser') price = soup.find('span', id='prcIsum') return price.text.strip() wenn Preis sonst None item_id = '234567890123' # Beispiel-Artikel-ID print(scrape_ebay_price(item_id))
Verschleierung: Die Poesie der Umgehung
- Anfrageintervalle zufällig anordnen:
Python
Zeit.Schlaf(random.uniform(2, 6)) - Shuffle-Proxys und User-Agents mit jeder Anfrage.
- Proxys pausieren oder wechseln bei HTTP 503-, 403- oder CAPTCHA-Erkennungen.
Grenzen und Gesetzmäßigkeiten:
Website | Max. Anfragen/Std. (geschätzt) | Wichtige Gegenmaßnahmen |
---|---|---|
Amazonas | ~50-100 | Captchas, IP-Sperren, JS-Checks |
eBay | ~200-300 | Ratenbegrenzung, Captchas |
Bewährte Methoden:
- Testen Sie Proxys vor der Verwendung auf ihre Funktionsfähigkeit (viele sterben innerhalb weniger Stunden).
- Respektieren Sie die robots.txt-Datei – betreten Sie keine Bereiche, in denen es verboten ist.
- Begrenzen Sie die Parallelität (vermeiden Sie Thread-Stürme mit kostenlosen Proxys).
- Anmutig analysieren – Site-Layouts verändern sich wie Unterholz im Frühling.
Tools und Bibliotheken:
Aufgabe | Empfohlenes Werkzeug |
---|---|
Proxy Scraping | Schöne Suppe |
HTTP-Anfragen | Anfragen, httpx |
Parsing | BeautifulSoup, lxml |
Proxy-Rotation | Anfragen + benutzerdefinierte |
Beispiel einer Proxy-Validierungsroutine:
def validate_proxy(proxy): Versuchen Sie: r = requests.get('https://httpbin.org/ip', proxies={'http': proxy, 'https': proxy}, timeout=3) returnieren Sie r.status_code == 200, außer: returnieren Sie False proxies = [p für p in proxies, wenn validate_proxy(p)]
Eine letzte Anmerkung zur Persistenz:
Mit kostenlosen Proxys zu arbeiten, bedeutet, dem Horizont hinterherzujagen – ständig im Wandel, immer knapp außer Reichweite. Wechseln Sie, passen Sie sich an und vergessen Sie nie, dass jede Anfrage ein Tropfen auf den heißen Stein des digitalen Handels ist. Das Web ist lebendig; behandeln Sie es auch so, und es könnte Ihnen noch seine Geheimnisse preisgeben.
Kommentare (0)
Hier gibt es noch keine Kommentare, Sie können der Erste sein!