zl程序教程

您现在的位置是:首页 >  工具

当前栏目

雅虎开源解析HTML页面数据的Web爬取工具Anthelion

工具开源WebHTML数据 解析 页面 爬取
2023-09-27 14:23:37 时间

12月14日,Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail,Yahoo Finance,Yahoo Messenger,Flickr 和 Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

本文作者:佚名 来源:51CTO
前端祖传三件套HTML的HTML5之Web存储 localStorage/sessionStorage HTML5 是 Web 技术的重要更新,其中包括一些新特性。其中之一就是 Web 存储。Web 存储允许我们在客户端(浏览器)中存储数据,而不必依赖服务器。本文介绍两种常见的 Web 存储:localStorage 和 sessionStorage。
【web前端开发】HTML知识点超详细总结 网页是构成网站的基本元素,是承载各种网站应用的平台.网页通常是指HTML格式的文件 文件扩展名为.html或.htm 它通过浏览器来阅读 HTML不是一种编程语言,而是一种标记语言.
web前端html写一个动态中秋明月!祝福大家中秋快乐! 中秋节,是我们国家的四大传统节日之一!中秋节有很多的别称,有祭月节、月光诞、月夕、秋节、仲秋节、拜月节等等,仲秋节源自于天象崇拜,有上古时代秋夕祭月演变而来。中华求解中秋节自古便有祭月、赏月、吃月饼、看花灯、赏桂花、饮桂花酒等民俗,流传至今,经久不息。