2010年6月3日木曜日

JavaでHTMLのテキストだけ取得したくなってみた。Jericho HTML Parser

java によるHTMLのパーサー。
なにこれ簡単すぎる

GetHtmlWithText.java

import java.io.IOException;
import java.net.URL;
import java.util.List;

import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.Source;
import org.apache.commons.httpclient.HttpException;

public class GetHtmlWithText {
public static void main(String args[]) throws HttpException, IOException{
String url = "http://wwww.yahoo.co.jp";
Source src = new Source(new URL(url));
List list = src.getAllElements();
for(Element element : list){
System.out.println(element.getTextExtractor());
}
}
}