So kratzen Sie PDF -Veröffentlichungsdaten aus einer HTML -QuellePython

Python-Programme
Anonymous
 So kratzen Sie PDF -Veröffentlichungsdaten aus einer HTML -Quelle

Post by Anonymous »

Ich arbeite an einem Projekt, um Daten zu PDF -Dateien für Zeitschriften von einer HTML -Seite zu extrahieren. Die Seite enthält Kalendertabellen mit Daten und Download -Links für PDF -Dateien über einen JavaScript -Funktionsaufruf (maxwin) mit einem Parameter, der die Gazette -Nummer darstellt. https://www.joradp.dz/jrn/za%7Byear%7d.htm
BEL: Link für 2021: https://www.joradp.dz/jrn/za2021.htm< /> Gazette-Nummer (formatiert als dreistellige Zeichenfolge, z. /> Das Jahr < /p>
Ich habe versucht, diese Daten mit verschiedenen Ansätzen zu extrahieren, aber auf Schwierigkeiten gestoßen, den richtigen Tag für jede Datei aus den Tabellen genau zu identifizieren. Beispielsweise gab es ein Problem, wenn es darum ging, die Zelle mit der PDF -Verbindung mit dem richtigen Datum in der Tabelle genau zu verknüpfen. Beachten Sie, dass ich verifiziert habe, dass der ursprüngliche Code korrekt organisiert ist, ohne fehlende Zellen oder widersprüchliche Daten.

Code: Select all



أ.ع.ح الجزائر















الـسـنـة


2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
1983
1982
1981
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964




الجريدة رقم :


100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
09
08
07
06
05
04
03
02
01      








جانفي 2021
1
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
4
5
6
7
8
9
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
11
12
13
14
15
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
17
18
19
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
21
22
23
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
25
26
27
28
29
30
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]



فبراير 2021
1
2
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
4
5
6
7
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
9
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
11
12
13
14
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
16
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
18
19
20
21
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
23
24
25
26
27
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]



مارس 2021
1
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
3
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
5
6
7
8
9
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
12
13
14
15
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
18
19
20
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
22
23
24
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
26
27
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
29
30
31




أبريل 2021
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
2
3
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
5
6
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
8
9
10
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
12
13
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
15
16
17
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
19
20
21
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
23
24
25
26
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
28
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
30



مايو 2021
1
2
3
4
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
6
7
8
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
10
11
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
13
14
15
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
17
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
19
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
21
22
23
24
25
26
27
28
29
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]



يونيو 2021
1
2
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
4
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
6
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
10
11
12
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
14
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
16
17
18
19
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
21
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
23
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
25
26
27
28
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
30




يوليو 2021
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
2
3
4
5
6
7
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
9
10
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
12
13
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
15
16
17
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
19
20
21
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
23
24
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
26
27
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
29
30
31



غشت  2021
1
2
3
4
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
6
7
8
9
10
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
12
13
14
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
16
17
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
19
20
21
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
23
24
25
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
27
28
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
30
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]



سبتمبر 2021
1
2
3
4
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
6
7
8
9
10
11
12
13
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
15
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
17
18
19
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
21
22
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
24
25
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
27
28
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
30




أكتوبر 2021
1
2
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
4
5
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
7
8
9
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
11
12
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
14
15
16
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
18
19
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
21
22
23
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
25
26
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
28
29
30
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]



نوفمبر 2021
1
2
3
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]
5
6
[url=javascript:MaxWin(]
[img]/IMG/pdf.gif[/img]
[/url]

Das Problem:
Obwohl ich verifiziert habe, dass der Code keine fehlenden Zellen oder Konflikte in den Daten hat, habe ich immer noch Schwierigkeiten, jeden Link (der Aufruf an die Maxwin -Funktion mit einem bestimmten Parameter) mit dem richtigen Tag im Calendar zu assoziieren. Code oder verwenden Sie ein Tool/eine Methode, die die genaue Extraktion der Gazette -Daten (Gazette -Nummer, Datum, PDF -URL und Jahr) direkt aus der Quelle HTML sicherstellt, ohne die Annahmen über die sequentielle Reihenfolge der Tage zu treffen? falsch.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post