数据科学|数据科学中的信息理论方法
自1948年引入信息论以来,信息论已被证明在分析与压缩、存储和传输数据有关的问题方面起着重要作用。例如,信息论允许分析数据通信和压缩的基本限制,并在几十年的实际通信系统设计中发挥了作用。近年来,在使用信息理论方法解决数据压缩、数据通信和网络之外的问题方面出现了复兴,例如压缩感知、数据获取、数据分析、机器学习、图挖掘、社区检测、隐私和公平。在这本书中,我们探索了信号处理、机器学习、学习理论和统计的接口上的一系列广泛的问题,其中源自信息论的工具和方法可以提供类似的好处。几十年来,信息论在这一界面上的作用确实得到了承认。一个突出的例子是在1980年代使用互信息、度量熵和容量等信息理论量来建立估计的极大极小率。在这里,我们打算探索这个界面的现代应用,这些应用正在塑造21世纪的数据科学。
当然,标准信息理论工具与信号处理或数据分析方法之间有一些显著的差异。从整体上说,信息论倾向于关注渐近极限,使用大的块长度,并假设数据是由有限的比特数表示,并通过一个噪声信道观看。标准结果不关心复杂性,而是更多地关注通过可实现性和反向结果表征的基本限制。另一方面,一些信号处理技术,如采样理论,专注于离散时间表示,但不一定假设数据是量化的或系统中有噪声。信号处理通常关注的是最优的具体方法,即达到开发的极限,并具有有限的复杂性。因此,很自然地将这些工具结合起来,以解决更广泛的问题和分析,包括量化、噪声、有限样本和复杂性分析。
这本书的目的是为新兴的数据科学问题的信息理论方法的最近的应用提供一个综述。本书的潜在读者可能是信息理论、信号处理、机器学习、统计学、应用数学、计算机科学或相关研究领域的研究人员,或寻求了解信息理论和数据科学并在此界面上找出开放问题的研究生。本卷的特殊设计确保它可以作为研究人员和学生的教科书的最先进的参考。
这本书包含了16个不同的章节,由世界范围内公认的领先专家撰写,涵盖了信号处理、数据科学和信息论界面上的各种各样的主题。本书以信息理论的介绍作为其余章节的背景开始,也设置了贯穿全书使用的符号。接下来的章节被分为四类: 数据获取(第2-4章),数据表示和分析(第5-9章),信息论和机器学习(第10和11章),以及信息论、统计和压缩(第12-15章)。最后一章,第16章,通过对范诺不等式在一系列数据科学问题中的调研,将本书的几个主题联系起来。章节是独立的,涵盖了各自主题的最新研究结果,并且可以彼此独立地处理。
相关文章
- Java编程中忽略这些细节,Bug肯定找上你
- 9个问题,带你掌握流程控制语句中的java原理
- 从IDC Marketscape报告看区块链政务数字化未来:权威解读新热点、新机遇
- chatGPT的火爆,并不偶然
- React 开发 | 常用 Hooks
- JDK19都出来了~是时候梳理清楚JDK的各个版本的特性了【JDK12特性讲解】
- Eolink 让我“重新认识“了自动化测试...
- 老板:你也把咱们网站弄成灰色——网站变灰色如何实现
- iptables规则案例
- ‘极锐’-一种新的锐化算法
- PS/LR滤镜插件套装 Nik Collection v5.3.0 Win/Mac
- Chrome插件:uBlock Origin – Chrome浏览器高效低占用的广告拦截插件
- 前端与区块链
- 云原生之微服务
- 集群动态环境管理神器 Modules
- 记 os_object_release Crash 排查
- 记 libAccessibility 通知 Crash 排查
- Ant Design Pro 中 点击子菜单的时候,其他菜单不自动收起来
- ETC 可视化
- 1267-Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci,IMPLIC for o...