抽取网页数据的不同思路
2023-03-14 10:18:13 时间
客户要求从Internet上的网页上抽取一定的数据,用来显示或者其他用户,这个需求很常见。这两天我们也遇到了这个需求,本来我一开始想是试用正则表达式去匹配需要的文本数据,后来经验丰富的经理给出了一个更好的思路,就是使用jtidy将不符合xhtml的HTML文件转化成标准的xhtml文件——本质上就是XML文件,然后利用xsl抽取并转换成我们所需要的数据的一定格式的xml文件。这样做其实就是将XSL模板当正则表达式来用,不过更清晰,当网页改变时也不需要重新编译代码,仅仅修改XSL模板就够了。过程如下:
html->xhtml--xsl-->数据xml
做的过程中,初次使用了xsl,xpath等技术,网上找了不少好资料,共享下:
jtidy:
思路来源
http://www.ibm.com/developerworks/cn/xml/x-wbdm/
项目地址
http://jtidy.sourceforge.net/
参考,解决中文问题使用
http://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html
xsl,非常系统教程和实践:
http://www.cnblogs.com/goody9807/category/36016.html
xpath:
http://www.yesky.com/201/171201.shtml
文章转自庄周梦蝶 ,原文发布时间2007-11-22
相关文章
- DataOps:现代数据管道的精髓
- 人工智能和大数据在疫情防控中大显身手
- 数据驱动的组织:一个正在进行的转型
- 数据分析的8种思维,总有一种用得上
- 京东出品!写给大家看的数据分析思路(二)
- 你还在用这种方法搭建Hadoop吗?
- 在数据科学中使用 C 和 C++
- 京东出品!写给大家看的数据分析思路
- 大数据将如何改变金融业
- 大数据时代经济学研究的创新与变革
- 谷歌刚刚发布了2500万个免费数据集,快来了解一下
- 企业数据安全如何做 专家给你5条建议
- 大数据:韩国乘客很可能去往的中国城市是这些
- 大数据 智慧医疗助力防疫 行业发展仍待打通壁垒
- 让大数据在精准施策中发力
- 实时离线一体化助力渠道分析系统
- 韩国11名军人确诊,物联网能做些什么?
- 如何在Kaggle上打比赛,带你进行一次完整流程体验
- 一次SQL查询优化原理分析(900W+数据,从17s到300ms)
- 解析SparkStreaming和Kafka集成的两种方式