Halten Sie die Unicode -Zeichen in der Java -Zeichenfolge

Post a reply

Smilies
:) :( :oops: :chelo: :roll: :wink: :muza: :sorry: :angel: :read: *x) :clever:
View more smilies

BBCode is ON
[img] is ON
[flash] is OFF
[url] is ON
Smilies are ON

Topic review
   

Expand view Topic review: Halten Sie die Unicode -Zeichen in der Java -Zeichenfolge

by Anonymous » 12 Feb 2025, 22:21

Ich schreibe einen Crawler in Java, um einige Websites zu kriechen, auf denen einige Unicode -Charaktere wie "£" enthalten sind. Als ich den Inhalt (Quelle HTML) in einer Java -Zeichenfolge gespeichert habe, gehen diese Arten von Scheuungen verloren und werden durch das Fragezeichen "" ersetzt? Ich würde gerne wissen, wie man sie intakt hält. Der zugehörige Code lautet wie folgt: < /p>

protected String readWebPage(String weburl) throws IOException{
HttpClient httpclient = new DefaultHttpClient();

HttpGet httpget = new HttpGet(weburl);
ResponseHandler responseHandler = new BasicResponseHandler();
String responseBody = httpclient.execute(httpget, responseHandler);
// responseBody now contains the contents of the page
httpclient.getConnectionManager().shutdown();
return responseBody;
}

// function call
String res = readWebPage(url);
PrintWriter out = new PrintWriter(outDir+name+".html");
out.println(res);
out.close();
< /code>

Und später bei Charakterübereinstimmungen möchte ich auch in der Lage sein, etwas wie: < /p>

zu tun.if(text.indexOf("£")>=0)
< /code>

Ich weiß nicht, ob Java dieses Zeichen erkennt und das tun, was ich tun soll. > Jede Eingabe wird sehr geschätzt. Vielen Dank im Voraus.

Top