如何用Java实现数据采集?

Java网页数据采集器例子如下：
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* Group 类用于匹配和抓取 html页面的数据
*/
public class Group {

public static void main(String[] args) {
// Pattern 用于编译正则这里用到了3个正则分别用括号()包住
// 第1个正则用于匹配URL 当然这里的正则不一定准确这个匹配URL的正则就是错误的只是在这里刚好能匹配出来
// 第2个正则是用于匹配标题 SoFlash的
// 第3个正则用于匹配日期
/* 这里只用了一条语句便把url，标题和日期全部给匹配出来了 */
Pattern p = Pattern
.compile("='(\\w.+)'>(\\w.+[a-zA-Z])-(\\d{1，2}\\.\\d{1，2}\\.\\d{4})");
String s = "SoFlash-12.22.2011";
Matcher m = p.matcher(s);
while (m.find()) {
// 通过调用group()方法里的索引将url，标题和日期全部给打印出来
System.out.println("打印出url链接:" + m.group(1));
System.out.println("打印出标题:" + m.group(2));
System.out.println("打印出日期:" + m.group(3));
System.out.println();
}
System.out.println("group方法捕获的数据个数:" + m.groupCount() + "个");
}
}

下输出结果:
打印出url链接:http://www.cnblogs.com/longwu
打印出标题:SoFlash
打印出日期:12.22.2011
group方法捕获的数据个数:3个

18 0 2016-09-08 0条评论回复