您现在的位置是：首页 > 其它

当前栏目

解析得到除去标签的txt内容

解析内容标签 txt 得到除去

2023-06-13 09:14:02 时间

复制代码代码如下:

NodeListbody_nodes=this.getParser().parse(body_filter);
for(inti=0;i<body_nodes.size();i++)
{
Nodenode=body_nodes.elementAt(i);

Parserbody_parser=newParser(node.toHtml());
TextExtractingVisitorvisitor=newTextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}

TextExtractingVisitor，visitAllNodesWith等类及方法都是Visitor中比较很重要但也很少见的。
下面附源代码：
复制代码代码如下:

importjava.io.BufferedWriter;
importjava.io.File;
importjava.io.FileWriter;
importjava.io.IOException;
importjava.util.Date;

importorg.htmlparser.Node;
importorg.htmlparser.NodeFilter;
importorg.htmlparser.Parser;
importorg.htmlparser.filters.AndFilter;
importorg.htmlparser.filters.HasAttributeFilter;
importorg.htmlparser.filters.HasChildFilter;
importorg.htmlparser.filters.TagNameFilter;
importorg.htmlparser.util.NodeList;
importorg.htmlparser.visitors.TextExtractingVisitor;

importcom.extractor.Extractor;

publicclassExtractorHangdianextendsExtractor{
publicvoidextract()
{
BufferedWriterbw=null;
Stringindextime;
Stringtitle;
StringBufferbody=newStringBuffer();;
NodeFiltertime_filter=newAndFilter(newTagNameFilter("font"),newHasAttributeFilter("color","#808080"));
NodeFiltertitle_filter1=newAndFilter(newTagNameFilter("td"),newHasChildFilter(newTagNameFilter("b")));
NodeFilterbody_filter=newAndFilter(newTagNameFilter("td"),newHasChildFilter(newTagNameFilter("p")));

try
{
NodeListtitle_nodes=this.getParser().parse(title_filter1);
Nodenode=title_nodes.elementAt(0);
NodeListnode2=node.getChildren();
//title=node2.elementAt(0).toHtml();/*"\r\n"*/
//title=node2.elementAt(1).toHtml();/*fontcolor="#000080"style="font-size:14.4px*/
//title=node2.elementAt(2).toHtml();/*b*/
title=node2.elementAt(3).toHtml();/*教材征订及教师用书登记通知*/

bw=newBufferedWriter(newFileWriter(newFile(this.getOutputPath()+title+".txt")));

Stringurl_seg1=getInputFilePath().substring(3,30);
intend=getInputFilePath().lastIndexOf(".");
Stringurl_seg2=getInputFilePath().substring(30,end);
Stringurl_seg=url_seg1+".asp?"+url_seg2;
url_seg=url_seg.replaceAll("\\\\","/");
Stringurl="http://"+url_seg;

bw.write(url+NEWLINE);
bw.write(title+NEWLINE);

}
catch(Exceptione)
{
e.printStackTrace();
}

this.getParser().reset();
try
{
NodeListtime_nodes=this.getParser().parse(time_filter);
Nodetime_node=time_nodes.elementAt(1);//这里的“1”表示符合time_filter的第二个元素
indextime=time_node.getNextSibling().toHtml();

bw.write(indextime+NEWLINE);
}
catch(Exceptione)
{
e.printStackTrace();
}

this.getParser().reset();//得到除去标签的所有txt文本
try
{
NodeListbody_nodes=this.getParser().parse(body_filter);
for(inti=0;i<body_nodes.size();i++)
{
Nodenode=body_nodes.elementAt(i);

Parserbody_parser=newParser(node.toHtml());
TextExtractingVisitorvisitor=newTextExtractingVisitor();
body_parser.visitAllNodesWith(visitor);
body.append(visitor.getExtractedText());
}
bw.write(body+NEWLINE);

}
catch(Exceptione)
{
e.printStackTrace();
}

try
{
if(bw!=null)
bw.close();
}catch(IOExceptione)
{
e.printStackTrace();
}
}
}

这里顺便提一下，当年bw没有关掉，怎么读不进去，搞了我好几天，郁闷死了，想起来就火大，注意！！

猜你喜欢

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装详解大数据
社交泛娱乐出海有三难，开发者如何闯关？
Oracle自动化运维：实现无技术人员监控（oracle自动化运维）
ActiveMQ的安装详解编程语言
计算机设备问题代码43,win10系统提示由于该设备有问题windows已将其停止（代码43）的修复方案…「建议收藏」
elk7.15.1安装部署搭建
如何在 Python Web 框架 Django 中使用序列化器
MySQL Error number: 4043; Symbol: ER_WARN_ADUIT_LOG_MAX_SIZE_CLOSE_TO_ROTATE_ON_SIZE; SQLSTATE: HY000 报错故障修复远程处理
首届昇腾AI创新大赛，“照见”好学不倦的“后浪”
Oracle11补丁安装步步推进（oracle11补丁安装）
我的论坛源代码(八)
Consumer位移管理-Kafka从入门到精通（十一）
Oracle使用Alter Table在中间插入字段（oracle中间插入字段）
腾讯社交大数据揭秘，单身狗出境游最爱去的地方竟然是...
Linux下VNC连接惊艳全场（linux连接vnc）
mybatis 详解（二）——入门实例（基于XML）编程语言
Mysql中的数据位运算实现（mysql位运算）
系统上部署部署ANSYS软件于Linux系统上的指南（ansys在linux）
SQL Server处理器：更快、更灵活、更可靠（sqlserver处理器）
从Oracle数据库中获取降序排序结果（oracle降序排列）
学会利用SQL Server简易实现视图功能（sqlserver写视图）
用小程序来实现扫码登录
Centos搭建原神服务器

zl程序教程

当前栏目

解析得到除去标签的txt内容

相关文章