Como fazer scraping na Amazon ou no eBay usando proxies gratuitos

Como fazer scraping na Amazon ou no eBay usando proxies gratuitos

Escolhendo seu Arsenal: Proxies Gratuitos na Natureza

Na ágora digital, os proxies se posicionam como sentinelas efêmeras — portais para o anonimato, a liberdade e, infelizmente, a fragilidade. O proxy livre, essa criatura elusiva, oferece passagem, mas a um preço: instabilidade, estrangulamento ou, na pior das hipóteses, traição. Examinemos, com clareza cartesiana, o cenário:

Tipo de proxy Anonimato Velocidade Confiabilidade Exemplo de fonte
Proxies HTTP/HTTPS Médio Moderado Baixo https://free-proxy-list.net/
SOCKS4/5 Proxies Alto Baixo Muito baixo https://socks-proxy.net/
Proxies transparentes Nenhum Rápido Baixo https://spys.one/

Aviso: Proxies gratuitos são públicos e podem estar comprometidos. Nunca envie credenciais ou dados confidenciais por meio deles.

Colhendo Proxies: O Ritual

Uma dança com o efêmero exige automação. Vamos invocar Python e seus acólitos, pedidos e Sopa Bonita, para buscar proxies:

importar solicitações do bs4 importar BeautifulSoup def fetch_proxies(): url = 'https://free-proxy-list.net/' soup = BeautifulSoup(requests.get(url).content, 'html.parser') proxies = [] para linha em soup.find('table', id='proxylisttable').tbody.find_all('tr'): tds = row.find_all('td') se tds[6].text == 'yes': # Somente HTTPS proxy = f"{tds[0].text}:{tds[1].text}" proxies.append(proxy) retornar proxies

Proxies em Rotação: A Arte do Disfarce

Amazon e eBay, essas fortalezas digitais, usam martelos de advertência com precisão mecânica. A solução? Rotacionar proxies, alterar agentes de usuário e injetar atrasos — uma coreografia de desorientação.

importar aleatório importar tempo proxies = fetch_proxies() user_agents = [ # Um buquê de agentes de usuário 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...', # Adicionar mais ] def get_random_headers(): return {'User-Agent': random.choice(user_agents)} def get_random_proxy(): return {'http': f"http://{random.choice(proxies)}", 'https': f"http://{random.choice(proxies)}"} def request_with_proxy(url): para tentativa em intervalo(5): proxy = get_random_proxy() headers = get_random_headers() try: response = requests.get(url, cabeçalhos=cabeçalhos, proxies=proxy, tempo limite=5) se response.status_code == 200: retornar response.text exceto Exceção: continuar time.sleep(random.uniform(1, 3)) retornar Nenhum

Scraping Amazon: Navegando pelo Labirinto

A Amazon tece feitiços antibots: CAPTCHAs, conteúdo dinâmico, banimentos de IP. Para scraping em pequena escala, concentre-se nas listagens de produtos; para qualquer coisa além disso, considere limites éticos e legais.

Exemplo: Extraindo títulos de produtos

de bs4 importar BeautifulSoup def scrape_amazon_product_title(asin): url = f"https://www.amazon.com/dp/{asin}" html = request_with_proxy(url) se não html: print("Falha ao recuperar a página.") retornar Nenhum soup = BeautifulSoup(html, 'html.parser') title = soup.find('span', id='productTitle') retornar title.text.strip() se título senão Nenhum asin = 'B08N5WRWNW' # Exemplo de ASIN print(scrape_amazon_product_title(asin))

Raspando o eBay: Através do Bazar

O eBay, uma sentinela menos vigilante, ainda utiliza limitação de taxa e detecção de bots — menos severos, mas presentes. Concentre-se na página do item (por exemplo, https://www.ebay.com/itm/ITEMID).

Exemplo: Extraindo Preço do Item

def scrape_ebay_price(item_id): url = f"https://www.ebay.com/itm/{item_id}" html = request_with_proxy(url) if not html: print("Falha ao recuperar a página.") return None soup = BeautifulSoup(html, 'html.parser') price = soup.find('span', id='prcIsum') return price.text.strip() if price else None item_id = '234567890123' # Exemplo de ID do item print(scrape_ebay_price(item_id))

Ofuscação: A Poesia da Evasão

  • Randomizar intervalos de solicitação:
    pitão
    tempo.sono(aleatório.uniforme(2, 6))
  • Embaralhar proxies e agentes de usuário com cada solicitação.
  • Pausar ou alternar proxies em detecções HTTP 503, 403 ou CAPTCHA.

Limites e Legalidades:

Site Máximo de solicitações/hora (Est.) Principais contramedidas
Amazon ~50-100 Captchas, proibições de IP, verificações de JS
eBay ~200-300 Limitação de taxa, Captchas

Melhores práticas:

  • Teste os proxies para verificar se estão ativos antes de usá-los (muitos morrem em poucas horas).
  • Respeite o robots.txt — não invada onde for proibido.
  • Limite a simultaneidade (evite tempestades de threads com proxies gratuitos).
  • Analise com elegância — os layouts dos sites mudam como a vegetação rasteira na primavera.

Ferramentas e bibliotecas:

Tarefa Ferramenta recomendada
Raspagem de proxy Sopa Bonita
Solicitações HTTP solicitações, httpx
Análise BeautifulSoup, lxml
Rotação de Proxy solicitações + personalizadas

Rotina de validação de proxy de exemplo:

def validate_proxy(proxy): try: r = requests.get('https://httpbin.org/ip', proxies={'http': proxy, 'https': proxy}, timeout=3) return r.status_code == 200 except: return False proxies = [p para p em proxies se validate_proxy(p)]

Uma nota final sobre persistência:

Explorar com proxies gratuitos é perseguir o horizonte — em constante mudança, sempre fora de alcance. Alterne, adapte-se e nunca se esqueça de que cada solicitação é uma gota no oceano do comércio digital. A web é um ser vivo; trate-a como tal, e ela ainda poderá revelar seus segredos.

Théophile Beauvais

Théophile Beauvais

Analista de Proxy

Théophile Beauvais é um Proxy Analyst de 21 anos na ProxyMist, onde é especialista em curadoria e atualização de listas abrangentes de servidores proxy do mundo todo. Com uma aptidão inata para tecnologia e segurança cibernética, Théophile se tornou um membro essencial da equipe, garantindo a entrega de servidores proxy SOCKS, HTTP, elite e anônimos confiáveis gratuitamente para usuários do mundo todo. Nascido e criado na pitoresca cidade de Lyon, a paixão de Théophile por privacidade digital e inovação foi despertada em tenra idade.

Comentários (0)

Ainda não há comentários aqui, você pode ser o primeiro!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *