Gehen Sie auf Social-Media-Management-Websites zur Original-URLPython

Python-Programme
Anonymous
 Gehen Sie auf Social-Media-Management-Websites zur Original-URL

Post by Anonymous »

Ich mache Web Scraping im Rahmen eines akademischen Projekts, bei dem es wichtig ist, dass alle Links bis zum eigentlichen Inhalt weiterverfolgt werden. Ärgerlicherweise gibt es einige schwerwiegende Fehlerfälle bei „Social-Media-Management“-Websites, bei denen Benutzer ihre Links veröffentlichen, um zu erkennen, wer darauf klickt.

Bedenken Sie zum Beispiel diesen Link auf linkis.com, der auf http:// + bit.ly + /1P1xh9J verweist (getrennter Link aufgrund von SO-Posting-Einschränkungen), der wiederum auf http://conservatives4palin.com verweist. Das Problem entsteht, weil der ursprüngliche Link auf linkis.com nicht automatisch weiterleitet. Stattdessen muss der Nutzer auf das Kreuz oben rechts klicken, um zur Original-URL zu gelangen.

Darüber hinaus scheint es verschiedene Varianten zu geben (siehe z. B. linkis.com Link 2, wo sich das Kreuz unten links auf der Website befindet). Dies sind die einzigen zwei Variationen, die ich gefunden habe, aber es könnten noch mehr sein. Beachten Sie, dass ich einen Web-Scraper verwende, der diesem sehr ähnlich ist. Die Funktionalität, um zum eigentlichen Link zu gelangen, muss im Laufe der Zeit nicht stabil/funktionsfähig sein, da es sich um ein einmaliges akademisches Projekt handelt.

Wie gehe ich automatisch zur ursprünglichen URL weiter? Wäre der beste Ansatz, einen regulären Ausdruck zu entwerfen, der den relevanten Link findet?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post