Browser-use – automatyzacja przeglądarki z pomocą AI

Automatyzacja działań w przeglądarce internetowej od lat pomaga użytkownikom oszczędzać czas – od prostych makr i skryptów po zaawansowane narzędzia typu Selenium dla testerów. Jednak dopiero integracja sztucznej inteligencji wynosi te możliwości na nowy poziom. Browser-use to otwartoźródłowe narzędzie, które pozwala agentom AI kontrolować przeglądarkę i wykonywać zadania tak, jak zrobiłby to człowiek. W praktyce oznacza to, że model językowy (LLM) może samodzielnie otwierać strony, klikać przyciski, wypełniać formularze czy kopiować informacje – bez udziału użytkownika.

Browser-use powstał jako alternatywa dla komercyjnych agentów przeglądarkowych, takich jak Operator od OpenAI, oferując podobne możliwości bez konieczności opłacania drogich subskrypcji (rozwiązanie jest dostępne za darmo jako projekt open-source). Poniższy artykuł przedstawi przystępnie, czym jest Browser-use, jakie oferuje funkcje, do czego można go zastosować, jak go zainstalować oraz przykłady użycia – tak, aby skorzystali z niego zarówno początkujący, jak i zaawansowani użytkownicy.

Funkcje i możliwości

Browser-use wyróżnia się szeregiem zaawansowanych funkcji, które czynią go potężnym narzędziem do automatyzacji przeglądarki z wykorzystaniem AI. W odróżnieniu od tradycyjnych skryptów, agent oparty o Browser-use rozumie polecenia w języku naturalnym i sam decyduje, jakie kroki podjąć, aby zrealizować zadanie. Poniżej zestawiono kluczowe możliwości platformy:

Integracja z dowolnym modelem językowym (LLM) – Browser-use wspiera praktycznie każdy model językowy dostępny poprzez bibliotekę LangChain (np. OpenAI GPT-4, Anthropic Claude, lokalne modele przez API).
Automatyczne wykrywanie elementów interfejsu – Agent sam identyfikuje na stronie interaktywne elementy, takie jak przyciski, pola tekstowe czy listy, bez ręcznego podawania selektorów.
Obsługa wielu kart i okien – Narzędzie radzi sobie z nawigacją w wielu kartach jednocześnie. Agent może otwierać dodatkowe zakładki, przełączać się między nimi i równolegle wykonywać w nich działania.
Ekstrakcja danych i XPath – Wbudowane mechanizmy ułatwiają wydobywanie treści ze stron. Browser-use potrafi automatycznie wygenerować selektory (XPath) dla elementów DOM i wyciągać potrzebne informacje.
Wsparcie dla treści wizualnych – Oprócz HTML, agent może wykorzystywać modele wizji komputerowej do analizy elementów graficznych strony.
Obsługa dynamicznych stron – Browser-use został zaprojektowany tak, by radzić sobie z dynamicznym kontentem: automatycznie akceptuje ciasteczka, czeka na załadowanie elementów AJAX-owych, potrafi obsługiwać infinite scroll itp.
Możliwość definiowania własnych akcji – Deweloper może rozszerzyć standardowe zachowanie, dodając funkcje customowe.
Inteligentne planowanie i korekcja błędów – Pod maską agent stosuje technikę chain-of-thought, czyli rozbija złożone zadanie na mniejsze kroki i utrzymuje kontekst wykonując kolejne akcje z pamięcią wcześniejszych wyników.

Zastosowania

Wszechstronność Browser-use przekłada się na szeroki wachlarz praktycznych zastosowań:

Automatyzacja zakupów online – Agent może porównywać ceny tego samego produktu w różnych sklepach internetowych, szukać promocji i informować, gdzie jest najtaniej.
Wypełnianie formularzy – Powtarzalne wpisywanie danych w formularzach (rejestracje kont, zapisy na wydarzenia, ankiety) można zautomatyzować.
Zarządzanie treściami webowymi – Dla osób prowadących strony lub profile w mediach społecznościowych agent AI może publikować posty według harmonogramu.
Integracje z CRM – Browser-use ułatwia łączenie przeglądarki z firmowymi systemami CRM/ERP.
Planowanie podróży i rezerwacje – Agent potrafi wyszukiwać loty czy hotele według zadanych kryteriów i wybierać najkorzystniejsze opcje.

Szybki start z Browser Use

Rozpocznij korzystanie z Browser Use, postępując zgodnie z tym przewodnikiem.

Przygotowanie środowiska

Browser Use wymaga Pythona w wersji 3.11 lub wyższej.

Zalecamy użycie narzędzia uv do zarządzania środowiskiem Pythona.

Utwórz wirtualne środowisko:
```
uv venv --python 3.11
```

Aktywuj środowisko:

Dla Mac/Linux:
```
source .venv/bin/activate
```
Dla Windows:
```
.venv\Scripts\activate
```

Zainstaluj zależności:
```
uv pip install browser-use
```
Zainstaluj Playwright:
```
playwright install
```

Tworzenie agenta

Po przygotowaniu środowiska możesz utworzyć agenta w następujący sposób:

agent.py

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import asyncio

load_dotenv()

llm = ChatOpenAI(model="gpt-4o")

async def main():
    agent = Agent(
        task="Porównaj ceny gpt-4o i DeepSeek-V3",
        llm=llm,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Ustawienie kluczy API dla LLM

ChatOpenAI i inne modele Langchain wymagają kluczy API. Powinieneś przechowywać je w pliku .env.

Na przykład, dla OpenAI i Anthropic, możesz ustawić klucze API w pliku .env w następujący sposób:

.env

OPENAI_API_KEY=twój_klucz_openai
ANTHROPIC_API_KEY=twój_klucz_anthropic

Dla innych modeli LLM możesz odnieść się do dokumentacji Langchain, aby dowiedzieć się, jak je skonfigurować z ich specyficznymi kluczami API.

Uwaga: Pamiętaj, aby zawsze chronić swoje klucze API i nie udostępniać ich publicznie.

Potrzebne informacje znajdują się poniżej

Powyższa instrukcja na podstawie : https://docs.browser-use.com/quickstart

Projekt w GIT znajduje się tutaj: https://github.com/browser-use/browser-use

MarGib - Świat zza klawiatury

Szukaj na tym blogu