Przejdź do głównej zawartości

Browser-use – automatyzacja przeglądarki z pomocą AI

 Automatyzacja działań w przeglądarce internetowej od lat pomaga użytkownikom oszczędzać czas – od prostych makr i skryptów po zaawansowane narzędzia typu Selenium dla testerów. Jednak dopiero integracja sztucznej inteligencji wynosi te możliwości na nowy poziom. Browser-use to otwartoźródłowe narzędzie, które pozwala agentom AI kontrolować przeglądarkę i wykonywać zadania tak, jak zrobiłby to człowiek. W praktyce oznacza to, że model językowy (LLM) może samodzielnie otwierać strony, klikać przyciski, wypełniać formularze czy kopiować informacje – bez udziału użytkownika.

Browser-use powstał jako alternatywa dla komercyjnych agentów przeglądarkowych, takich jak Operator od OpenAI, oferując podobne możliwości bez konieczności opłacania drogich subskrypcji (rozwiązanie jest dostępne za darmo jako projekt open-source). Poniższy artykuł przedstawi przystępnie, czym jest Browser-use, jakie oferuje funkcje, do czego można go zastosować, jak go zainstalować oraz przykłady użycia – tak, aby skorzystali z niego zarówno początkujący, jak i zaawansowani użytkownicy.


Funkcje i możliwości

Browser-use wyróżnia się szeregiem zaawansowanych funkcji, które czynią go potężnym narzędziem do automatyzacji przeglądarki z wykorzystaniem AI. W odróżnieniu od tradycyjnych skryptów, agent oparty o Browser-use rozumie polecenia w języku naturalnym i sam decyduje, jakie kroki podjąć, aby zrealizować zadanie. Poniżej zestawiono kluczowe możliwości platformy:

  • Integracja z dowolnym modelem językowym (LLM) – Browser-use wspiera praktycznie każdy model językowy dostępny poprzez bibliotekę LangChain (np. OpenAI GPT-4, Anthropic Claude, lokalne modele przez API).

  • Automatyczne wykrywanie elementów interfejsu – Agent sam identyfikuje na stronie interaktywne elementy, takie jak przyciski, pola tekstowe czy listy, bez ręcznego podawania selektorów.

  • Obsługa wielu kart i okien – Narzędzie radzi sobie z nawigacją w wielu kartach jednocześnie. Agent może otwierać dodatkowe zakładki, przełączać się między nimi i równolegle wykonywać w nich działania.

  • Ekstrakcja danych i XPath – Wbudowane mechanizmy ułatwiają wydobywanie treści ze stron. Browser-use potrafi automatycznie wygenerować selektory (XPath) dla elementów DOM i wyciągać potrzebne informacje.

  • Wsparcie dla treści wizualnych – Oprócz HTML, agent może wykorzystywać modele wizji komputerowej do analizy elementów graficznych strony.

  • Obsługa dynamicznych stron – Browser-use został zaprojektowany tak, by radzić sobie z dynamicznym kontentem: automatycznie akceptuje ciasteczka, czeka na załadowanie elementów AJAX-owych, potrafi obsługiwać infinite scroll itp.

  • Możliwość definiowania własnych akcji – Deweloper może rozszerzyć standardowe zachowanie, dodając funkcje customowe.

  • Inteligentne planowanie i korekcja błędów – Pod maską agent stosuje technikę chain-of-thought, czyli rozbija złożone zadanie na mniejsze kroki i utrzymuje kontekst wykonując kolejne akcje z pamięcią wcześniejszych wyników.


Zastosowania

Wszechstronność Browser-use przekłada się na szeroki wachlarz praktycznych zastosowań:

  • Automatyzacja zakupów online – Agent może porównywać ceny tego samego produktu w różnych sklepach internetowych, szukać promocji i informować, gdzie jest najtaniej.

  • Wypełnianie formularzy – Powtarzalne wpisywanie danych w formularzach (rejestracje kont, zapisy na wydarzenia, ankiety) można zautomatyzować.

  • Zarządzanie treściami webowymi – Dla osób prowadących strony lub profile w mediach społecznościowych agent AI może publikować posty według harmonogramu.

  • Integracje z CRM – Browser-use ułatwia łączenie przeglądarki z firmowymi systemami CRM/ERP.

  • Planowanie podróży i rezerwacje – Agent potrafi wyszukiwać loty czy hotele według zadanych kryteriów i wybierać najkorzystniejsze opcje.





Szybki start z Browser Use

Rozpocznij korzystanie z Browser Use, postępując zgodnie z tym przewodnikiem.

Przygotowanie środowiska

Browser Use wymaga Pythona w wersji 3.11 lub wyższej.

Zalecamy użycie narzędzia uv do zarządzania środowiskiem Pythona.

  1. Utwórz wirtualne środowisko:

    uv venv --python 3.11
  2. Aktywuj środowisko:

    • Dla Mac/Linux:

      source .venv/bin/activate
    • Dla Windows:

      .venv\Scripts\activate
  3. Zainstaluj zależności:

    uv pip install browser-use
  4. Zainstaluj Playwright:

    playwright install

Tworzenie agenta

Po przygotowaniu środowiska możesz utworzyć agenta w następujący sposób:

agent.py

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import asyncio

load_dotenv()

llm = ChatOpenAI(model="gpt-4o")

async def main():
    agent = Agent(
        task="Porównaj ceny gpt-4o i DeepSeek-V3",
        llm=llm,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Ustawienie kluczy API dla LLM

ChatOpenAI i inne modele Langchain wymagają kluczy API. Powinieneś przechowywać je w pliku .env.

Na przykład, dla OpenAI i Anthropic, możesz ustawić klucze API w pliku .env w następujący sposób:

.env

OPENAI_API_KEY=twój_klucz_openai
ANTHROPIC_API_KEY=twój_klucz_anthropic

Dla innych modeli LLM możesz odnieść się do dokumentacji Langchain, aby dowiedzieć się, jak je skonfigurować z ich specyficznymi kluczami API.

Uwaga: Pamiętaj, aby zawsze chronić swoje klucze API i nie udostępniać ich publicznie.

Potrzebne informacje znajdują się poniżej 

Powyższa instrukcja na podstawie : https://docs.browser-use.com/quickstart

Projekt w GIT znajduje się tutaj: https://github.com/browser-use/browser-use


Komentarze

Najczęściej czytane w tym miesiącu

50 popularnych pytań dotyczących systemu Linux zadawanych na rozmowach kwalifikacyjnych. (Pytania & Odpowiedzi)

Generowanie testowych plików o określonej wielkości