您现在的位置是：首页 > 后端

当前栏目

网络爬虫

爬虫网络

2023-09-14 09:08:04 时间

当然，数据挖掘，数据准备部分考虑这样做：配置文件的基础上，打开相应的网站，并保存。之后这些文件的内容，然后分析、文本提取、矩阵变换、集群。

public static void main(String[] args){
	    final int THREAD_COUNT=5;
	    String baseUrl=null;  
	    String searchBlogs=null;  
	    String blogs[]=null;  
	    String fileDir=null;  
	    //String category=null;
	    InputStream inputStream =CsdnBlogMining.class.getClassLoader().getResourceAsStream("config.properties");  
	    Properties p = new Properties(); 
	    
	    try {  
	        p.load(inputStream);  
	        baseUrl=p.getProperty("baseUrl");  
	        fileDir=p.getProperty("fileDir");  
	        searchBlogs=p.getProperty("searchBlogs");  
	        if(searchBlogs!=""){  
	            blogs=searchBlogs.split(";");  
	        }
	        ExecutorService pool=Executors.newFixedThreadPool(THREAD_COUNT);
	        
	        for(String s:blogs){
	        	pool.submit(new SaveWeb(baseUrl+s,fileDir+"/"+s+".html"));
	        }  
	        pool.shutdown();
	        
	        //category=new String(p.getProperty("category").getBytes("ISO-8859-1"),"UTF-8");  
	    } catch (IOException e) {  
	        e.printStackTrace();  
	    }
	}

打开网页并保存模块：

public class SaveWeb implements Runnable{
    private String url;  
    private String filename;
    
    public SaveWeb(String url,String filename){
    	this.url=url;  
        this.filename=filename;
    }
    
	@Override
	public void run() {
		HttpClient httpclient = new DefaultHttpClient();  
        HttpGet httpGet = new HttpGet(url);  
            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");  
            try{  
            HttpResponse response = httpclient.execute(httpGet);  
            HttpEntity entity = response.getEntity();  
            BufferedOutputStream outputStream = new BufferedOutputStream(new FileOutputStream(filename));          
            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK){  
                if (entity != null) {     
                    String res=EntityUtils.toString(entity,"UTF-8");  
                    outputStream.write(res.getBytes("UTF-8"));  
                    outputStream.flush();  
                }  
            }  
            outputStream.close();  
        }catch(IOException e){  
            e.printStackTrace();  
        }  
	}
}

兴许：

作业完毕了，但差点儿和上面的内容没啥关系，本来想全删了。

再想也不算写错。仅仅是没用上而已。还是留着吧。

终于，用java代码循环加并发去获得一个地址列表存到文件中。

而採用R语言去做的挖掘工作。包含获取网页、解析正文、分词、聚类、结果输出等。R语言真是省事，几十行代码全搞定了。但终于分类的结果不理想。看来基于全文的计算通用，刻出来的类是非常不准确，我们必须考虑改进。

猜你喜欢

比亚迪将向特斯拉供应“刀片电池”！内部人士确认属实
SpringBoot实现API版本控制
鱼眼镜头的成像原理到畸变矫正（完整版）
英伟达推出461.72版显卡驱动支持CMP矿卡同时限制RTX3060挖矿性能
ORA-02762: file number to be cancelled is greater than the maximum. ORACLE 报错故障修复远程处理
变Linux系统修改IP：让改变变得简单（linuxip改）
设计模式之观察者模式
查看Redis内存配置的最佳方法（查看redis配置内存）
密码如何改变MSSQL数据库密码（如何改mssql）
使用Oracle数据库扩容实现业务增长（oracle 数据库扩容）
Linux用户也可快乐播放快播登场（快播 for linux）
通过Androidtrace文件分析死锁ANR实例过程
js获取select标签选中值的两种方式
Linux资源崩溃！（linux资源不可用）
面试中掌握 Redis 队列的必要性（redis 队列面试）
新冠轻症患者会出现“长期新冠”症状
js图片上传前大小长宽验证代码
每日tips：Dart & Flutter Easy Wins 22-28
mysqlOracle与MySQL：究竟哪家胜出？（oraclevs）
Linux 系统批量重命名文件式神器（批量重命名linux）
跨内外网远程操作Spark
vm安装winme[通俗易懂]
能得心脏病、能吐血，这个生病的机器人可帮人训练营救技能

相关主题

网络爬虫框架
爬虫总结
什么是爬虫脑
32 爬虫 - XPath
Scrapy爬虫
爬虫笔记

zl程序教程

当前栏目

网络爬虫

相关文章