Web-Scrape-Daten von der URL [geschlossen]

Web-Scrape-Daten von der URL [geschlossen] ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Guest

Web-Scrape-Daten von der URL [geschlossen]

Post by Guest » 18 Jan 2025, 22:46

Ich habe eine CSV-Datei mit einer Liste von Unternehmen, mit Spalten für „Firmenname“ und „Firmen-URL“. Ich möchte die Kontakttelefonnummern dieser Unternehmen anhand ihrer URLs extrahieren. Kann mir bitte jemand eine Lösung dafür geben?

Code: Select all

import pandas as pd
import requests
from bs4 import BeautifulSoup
# Provide the absolute path
file_path = r'D:\VS CODE\scrap_tool\Company_list-1.csv'
df = pd.read_csv(file_path)

print(df.head(5))
print(df.columns)

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

def get_contact_number(url):
try:
# Fetch the website content
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers, timeout=10)
soup = BeautifulSoup(response.text, 'html.parser')

# Search for phone numbers using regex patterns
phone_numbers = set()
for text in soup.stripped_strings:
if '+91' in text or text.isdigit():
if len(text) >= 10 and len(text)

1737236786

Guest

Ich habe eine CSV-Datei mit einer Liste von Unternehmen, mit Spalten für „Firmenname“ und „Firmen-URL“. Ich möchte die Kontakttelefonnummern dieser Unternehmen anhand ihrer URLs extrahieren. Kann mir bitte jemand eine Lösung dafür geben?
[code]import pandas as pd
import requests
from bs4 import BeautifulSoup
# Provide the absolute path
file_path = r'D:\VS CODE\scrap_tool\Company_list-1.csv'
df = pd.read_csv(file_path)

print(df.head(5))
print(df.columns)

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

def get_contact_number(url):
try:
# Fetch the website content
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers, timeout=10)
soup = BeautifulSoup(response.text, 'html.parser')

# Search for phone numbers using regex patterns
phone_numbers = set()
for text in soup.stripped_strings:
if '+91' in text or text.isdigit():
if len(text) >= 10 and len(text)

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Ich versuche, mit Selenium Web Scrape durchzuführen, aber wenn ich meinen Code ausführe, gibt mir Webdriver einen langen

Last post by Anonymous « 22 Dec 2024, 06:58
Posted in Python

by Anonymous » 22 Dec 2024, 06:58 » in Python

Jedes Mal, wenn ich diesen Code auf einem beliebigen Gerät ausführe (ich habe es auf meinem Mac und Windows versucht)
from selenium import webdriver

PATH= /Users/priyanshulal/Library/Mobile...

0 Replies

30 Views

Last post by Anonymous
22 Dec 2024, 06:58
Ich versuche, mit Selenium Web Scrape durchzuführen, aber wenn ich meinen Code ausführe, gibt mir Webdriver einen langen

Last post by Guest « 22 Dec 2024, 07:35
Posted in Python

by Guest » 22 Dec 2024, 07:35 » in Python

Jedes Mal, wenn ich diesen Code auf einem beliebigen Gerät ausführe (ich habe es auf meinem Mac und Windows versucht)
from selenium import webdriver

PATH= /Users/priyanshulal/Library/Mobile...

0 Replies

37 Views

Last post by Guest
22 Dec 2024, 07:35
Warum kann Selen nach dem Zugriff auf die Haupt -URL nicht in der Lage sein, Daten aus einer URL aufzurichten?

Last post by Guest « 14 Feb 2025, 04:29
Posted in Python

by Guest » 14 Feb 2025, 04:29 » in Python

Ich habe einige Informationen von einer Haupt -URL abgeschafft, die die Adresse und die Anzahl der Räume anzeigt, die mehrere Seiten schleifen:
from selenium.webdriver.support.ui import...

0 Replies

30 Views

Last post by Guest
14 Feb 2025, 04:29
Warum kann Selen nach dem Zugriff auf die Haupt -URL nicht in der Lage sein, Daten aus einer URL aufzurichten?

Last post by Anonymous « 14 Feb 2025, 09:53
Posted in Python

by Anonymous » 14 Feb 2025, 09:53 » in Python

Ich habe einige Informationen von einer Haupt -URL abgeschafft, die die Adresse und die Anzahl der Räume anzeigt, die mehrere Seiten schleifen:
from selenium.webdriver.support.ui import...

0 Replies

22 Views

Last post by Anonymous
14 Feb 2025, 09:53
Neue URL (URL) .PathName löscht Verwandte in JavaScript [geschlossen]

Last post by Guest « 09 Feb 2025, 12:40
Posted in JavaScript

by Guest » 09 Feb 2025, 12:40 » in JavaScript

Hallo, ich habe die URL-API ausprobiert und es gab mir folgende Ergebnisse:
let a = new URL('
console.log(a.pathname)
// output: /

let a = new URL('
console.log(a.pathname)
// output:...

0 Replies

21 Views

Last post by Guest
09 Feb 2025, 12:40

Return to “Python”