抽取网页中的主要内容
网页 内容 主要 抽取
2023-09-27 14:26:55 时间
抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。
String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#newwindow=1&q=restlet+java.net.socketexception+broken+pipe&safe=active"));
System.out.println(content);
本人试过各大新闻网站,和论坛网站。都没有问题滴将网页的内容中主要部分抽取出来。也可以将网页下载下来。使用如下方法处理本地文件,当然也可以处理HDFS文件。
FileReader reader =new FileReader(new File("test.html"));
String cont =ArticleExtractor.INSTANCE.getText(reader);
System.out.println(cont);
可以试试哦 :http://code.google.com/p/boilerpipe/
相关文章
- 网页导航的点击及内容切换效果
- Vue - 最新网页 H5 分享到微信朋友圈 / 转发分享给朋友好友 / 分享到手机 QQ / 分享到 QQ 空间,Vue.js Nuxt.js 通用公众号页面解决方案(超级详细教程)
- 如何让用户在用webview访问网页时嵌入我们自己的内容
- 网页图表Highcharts实践教程之外层图表区
- HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容
- 《网页设计与前端开发 Dreamweaver+Flash+Photoshop+HTML+CSS+JavaScript 从入门到精通》——2.4 网页的主体标记body
- 《众妙之门——网页设计专业之道》——1.7 现实生活中的隐喻和隐藏复杂性
- 《HTML5+CSS3网页设计入门必读》——1.2 创建Web内容
- 《HTML5+CSS3网页设计入门必读》——1.3 理解Web内容递送
- 《HTML5+CSS3网页设计入门必读》——1.10 关于测试Web内容的提示
- 让正常网页呈现黑白色调的方法
- 使得fiddler来抓包查看微信浏览器的网页源码
- 解决微信分享报错config:fail,invalid signature的问题、微信网页开发invalid signature/permission denied/offline verifying等错误处理
- Http 代理工具 实战 支持网页与QQ代理
- 一步一步搭建前端监控系统:如何将网页截图上报?
- 网页视频播放器代码大全 + 21个为您的站点和博客提供的免费视频播放器
- 网页上的内容无法复制和下载?一行代码教你解决