Wie behebe ich einen 403 Forbidden Error beim Scraping einer Website mit PHP Simple HTML DOM Parser? - Programmiererforum

Wie behebe ich einen 403 Forbidden Error beim Scraping einer Website mit PHP Simple HTML DOM Parser? ⇐ Php

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Wie behebe ich einen 403 Forbidden Error beim Scraping einer Website mit PHP Simple HTML DOM Parser?

Report
Quote

Post by Guest » 27 Dec 2024, 10:32

Ich versuche, mit dem PHP Simple HTML DOM Parser Daten von einer Website zu extrahieren. Allerdings erhalte ich jedes Mal, wenn ich versuche, den HTML-Inhalt der Seite abzurufen, den Fehler 403 Forbidden.
Zur Fehlerbehebung habe ich versucht, mit Guzzle benutzerdefinierte Header, einschließlich eines User-Agent, festzulegen PHP zur Nachahmung einer Browseranfrage. Trotzdem besteht das Problem weiterhin und ich kann den Inhalt der Webseite nicht abrufen.

Code: Select all

// using simple dom parser
require '../simple_html_dom.php';

$html = file_get_html('https://www.mywebsite.com');
$title = $html->find('title', 0);
$image = $html->find('img', 0);

echo $title->plaintext."
\n";
echo $image->src;

Code: Select all

// using guzzle
require '../../vendor/autoload.php';

use GuzzleHttp\Client;

$url = "https://www.mywebsite.com";
$client = new Client();

try {
$response = $client->request('GET', $url, [
'headers' => [
'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Accept-Language' => 'en-US,en;q=0.9',
'Accept-Encoding' => 'gzip, deflate, br',
'accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Referer' => 'https://www.mywebsite.com',
]
]);

if ($response->getStatusCode() === 200) {
$html = $response->getBody()->getContents();
echo "Fetched HTML (first 500 characters):\n" . substr($html, 0, 500) . "\n\n";

// Continue with DOM parsing...
} else {
echo "Failed to fetch the URL. HTTP Status Code: " . $response->getStatusCode() . "\n";
}
} catch (Exception $e) {
echo "An error occurred: " . $e->getMessage() . "\n";
}

Ich vermute, dass der Server über zusätzliche Mechanismen wie IP-Blockierung, Anti-Bot-Schutz oder Cookies verfügt, die den 403-Fehler verursachen.

Gibt es andere Header oder Konfigurationen, die ich einbeziehen sollte, um
den 403 Forbidden-Fehler zu umgehen?
Gibt es einen alternativen Ansatz oder eine alternative Bibliothek, die möglicherweise besser funktioniert
zum Scrapen von Websites damit Einschränkungen?

Jede Anleitung zur Lösung dieses Problems wäre sehr dankbar!

1735291931

Guest

Ich versuche, mit dem PHP Simple HTML DOM Parser Daten von einer Website zu extrahieren. Allerdings erhalte ich jedes Mal, wenn ich versuche, den HTML-Inhalt der Seite abzurufen, den Fehler 403 Forbidden.
Zur Fehlerbehebung habe ich versucht, mit Guzzle benutzerdefinierte Header, einschließlich eines User-Agent, festzulegen PHP zur Nachahmung einer Browseranfrage. Trotzdem besteht das Problem weiterhin und ich kann den Inhalt der Webseite nicht abrufen.
[code]// using simple dom parser
require '../simple_html_dom.php';

$html = file_get_html('https://www.mywebsite.com');
$title = $html->find('title', 0);
$image = $html->find('img', 0);

echo $title->plaintext."
\n";
echo $image->src;
[/code]
[code]// using guzzle
require '../../vendor/autoload.php';

use GuzzleHttp\Client;

$url = "https://www.mywebsite.com";
$client = new Client();

try {
$response = $client->request('GET', $url, [
'headers' => [
'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Accept-Language' => 'en-US,en;q=0.9',
'Accept-Encoding' => 'gzip, deflate, br',
'accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Referer' => 'https://www.mywebsite.com',
]
]);

if ($response->getStatusCode() === 200) {
$html = $response->getBody()->getContents();
echo "Fetched HTML (first 500 characters):\n" . substr($html, 0, 500) . "\n\n";

// Continue with DOM parsing...
} else {
echo "Failed to fetch the URL. HTTP Status Code: " . $response->getStatusCode() . "\n";
}
} catch (Exception $e) {
echo "An error occurred: " . $e->getMessage() . "\n";
}
[/code]
Ich vermute, dass der Server über zusätzliche Mechanismen wie IP-Blockierung, Anti-Bot-Schutz oder Cookies verfügt, die den 403-Fehler verursachen.
[list]
[*]Gibt es andere Header oder Konfigurationen, die ich einbeziehen sollte, um
den 403 Forbidden-Fehler zu umgehen?
[*]Gibt es einen alternativen Ansatz oder eine alternative Bibliothek, die möglicherweise besser funktioniert
zum Scrapen von Websites damit Einschränkungen?
[/list]
Jede Anleitung zur Lösung dieses Problems wäre sehr dankbar!

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Die Integration mit PlayIntegrity Api und GoogleAuth führt zu 403 Forbidden Error

Last post by Guest « 05 Jan 2025, 11:26
Posted in Android

by Guest » 05 Jan 2025, 11:26 » in Android

Ich versuche, die Play Integrity API in meine Android-App zu integrieren.
Ich habe meine Android-App für interne Tests bereitgestellt und sie auch in der Google Play-Konsole aktiviert, wie im...

0 Replies

15 Views

Last post by Guest
05 Jan 2025, 11:26
Titel: Flutterwave-API-Integration: Beim bereitgestellten Beispielcode wird der Fehler 403 Forbidden angezeigt

Last post by Guest « 03 Jan 2025, 19:12
Posted in Php

by Guest » 03 Jan 2025, 19:12 » in Php

Ich versuche, das Zahlungsgateway von Flutterwave mithilfe des bereitgestellten Beispielcodes in meine Website zu integrieren. Der Beispielcode, den ich verwende, sieht so aus.

Your order is...

0 Replies

28 Views

Last post by Guest
03 Jan 2025, 19:12
Maven Nexus-Problem – Autorisierung für 403 Forbidden fehlgeschlagen

Last post by Anonymous « 06 Jan 2025, 06:04
Posted in Java

by Anonymous » 06 Jan 2025, 06:04 » in Java

Wir beschäftigen uns schon seit Tagen mit diesem Problem.

Erstellte eine Gitlab CI-Pipeline für eine Java-App, die Abhängigkeiten von Maven und Nexus liest

Die Gitlab-Pipeline wurde für die...

0 Replies

18 Views

Last post by Anonymous
06 Jan 2025, 06:04
403 Forbidden: Access blocked bei guzzlehttp GET nominatim.openstreetmap.org

Last post by Anonymous « 16 Mar 2025, 13:51
Posted in Php

by Anonymous » 16 Mar 2025, 13:51 » in Php

Ich erhalte den folgenden Fehler:
Fataler Fehler: Unbekundetes GuzzleHttp \ Ausnahme \ ClientException: Client -Fehler: Get in einem 403 für gebidten reaktion: Access blocked Access blocked
You...

0 Replies

9 Views

Last post by Anonymous
16 Mar 2025, 13:51
403 Forbidden kehrte im Spring Stiefel zurück

Last post by Anonymous « 22 Aug 2025, 00:12
Posted in Java

by Anonymous » 22 Aug 2025, 00:12 » in Java

Ich habe eine Spring -Boot -Anwendung, die Rest zur Kommunikation mit Clients verwendet. Diese Anwendung enthält 2 Arten von Benutzern: Besucher und Mitarbeiter . Besucher und eine andere für den...

0 Replies

5 Views

Last post by Anonymous
22 Aug 2025, 00:12

Return to “Php”