您现在的位置是：首页 > 后端

当前栏目

java简单网页抓取的实现方法

JAVA 网页方法实现简单抓取

2023-06-13 09:15:37 时间

本文实例讲述了java简单网页抓取的实现方法。分享给大家供大家参考。具体分析如下：

背景介绍

一tcp简介

　　1tcp实现网络中点对点的传输

　　2传输是通过ports和sockets

　　ports提供了不同类型的传输（例如http的port是80）

　　　　1）sockets可以绑定在特定端口上，并且提供传输功能

　　　　2）一个port可以连接多个socket

二URL简介

URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。

互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

综上，我们要抓取网页的内容实质上就是通过url来抓取网页内容。

Java提供了两种方法：

一种是直接从URL读取网页

一种是通过URLConnection来读取网页

其中的URLConnection是以http为核心的类，提供了很多关于连接http的函数

本文将给出基于URLConnection的实例代码。

在此之前我们先来看下关于url的异常。不了解java异常机制的请参看上一篇博文。

构造URL的异常MalformedURLException产生条件：url的字符串为空或者是不能辨认的协议

建立URLConnection的异常IOException产生条件:openConnection失败，注意openConnection时代码还未连接远程，只是为连接远程做准备

综上所述,最终代码如下：

复制代码代码如下:

importjava.io.BufferedReader;
importjava.io.IOException;
importjava.io.InputStreamReader;
importjava.net.HttpURLConnection;
importjava.net.MalformedURLException;
importjava.net.URL;
importjava.net.URLConnection;

publicclassSimpleNetSpider{

publicstaticvoidmain(String[]args){

       try{
           URLu=newURL("http://docs.oracle.com/javase/tutorial/networking/urls/");
           URLConnectionconnection=u.openConnection();
           HttpURLConnectionhtCon=(HttpURLConnection)connection;
           intcode=htCon.getResponseCode();
           if(code==HttpURLConnection.HTTP_OK)
           {
               System.out.println("findthewebsite");
               BufferedReaderin=newBufferedReader(newInputStreamReader(htCon.getInputStream()));
               StringinputLine;
               while((inputLine=in.readLine())!=null)
                       System.out.println(inputLine);
                   in.close();
           }
           else
           {
               System.out.println("Cannotaccessthewebsite");
           }
       }
       catch(MalformedURLExceptione)
       {
           System.out.println("WrongURL");
       }
       catch(IOExceptione)
       {
           System.out.println("Cannotconnect");
       }
   }
}

希望本文所述对大家的Java程序设计有所帮助。

猜你喜欢

YUI Compressor插件压缩后war中的js/css文件未压缩的解决方法（被maven打包顶替了）
字符串实践常见问题总结
大数据开发主要做什么？
Weimob Day增长峰会广州站举办，聚焦微盟企微助手引领私域增长新趋势
Linux脚本入门：从零开始学习简单易懂的脚本编程（linux脚本入门）
JAVA实现的小程序[通俗易懂]
编辑Linux Vi 文件编辑之旅（linuxvi文件）
如何使用GUID转换为Oracle的字符串（guid转Oracle）
SQL Server实现高效分页查询技巧（sqlserver分页查询）
严重恐慌Oracle表空间遭遇丢失（oracle丢失表空间）
R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化|附代码数据
Linux上安全设置：增强密码复杂度安全（linux设置密码复杂度）
docker 修改挂载文件 Permission denied详解程序员
私有云架设SQL Server服务智能稳定运行（私有云sqlserver）
#新闻拍一拍# Google 搜索引擎导流作用越来越弱
数据库CMD下如何命名MySQL数据库（cmd里命名mysql）
【CSS教程】紫色渐变登陆布局html+css代码
构建可靠的Redis集群单向链表实现（redis集群单向链表）
低功耗设计方法--低功耗IP设计(二)

zl程序教程

当前栏目

java简单网页抓取的实现方法

相关文章