Halten Sie die Unicode -Zeichen in der Java -ZeichenfolgeJava

Java-Forum
Anonymous
 Halten Sie die Unicode -Zeichen in der Java -Zeichenfolge

Post by Anonymous »

Ich schreibe einen Crawler in Java, um einige Websites zu kriechen, auf denen einige Unicode -Charaktere wie "£" enthalten sind. Als ich den Inhalt (Quelle HTML) in einer Java -Zeichenfolge gespeichert habe, gehen diese Arten von Scheuungen verloren und werden durch das Fragezeichen "" ersetzt? Ich würde gerne wissen, wie man sie intakt hält. Der zugehörige Code lautet wie folgt: < /p>

protected String readWebPage(String weburl) throws IOException{
HttpClient httpclient = new DefaultHttpClient();

HttpGet httpget = new HttpGet(weburl);
ResponseHandler responseHandler = new BasicResponseHandler();
String responseBody = httpclient.execute(httpget, responseHandler);
// responseBody now contains the contents of the page
httpclient.getConnectionManager().shutdown();
return responseBody;
}

// function call
String res = readWebPage(url);
PrintWriter out = new PrintWriter(outDir+name+".html");
out.println(res);
out.close();
< /code>

Und später bei Charakterübereinstimmungen möchte ich auch in der Lage sein, etwas wie: < /p>

zu tun.if(text.indexOf("£")>=0)
< /code>

Ich weiß nicht, ob Java dieses Zeichen erkennt und das tun, was ich tun soll. > Jede Eingabe wird sehr geschätzt. Vielen Dank im Voraus.

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post