学术明星Michael Jordan解读:思维层与数据科学革命的关系
联合编译:Blake、高斐
编者注:Michael I. Jordan教授是加州大学伯克利分校(University of California, Berkeley)电子工程系、计算机科学系以及统计系的杰出教授。他在亚利桑那州立大学(Arizona State University)获得了数学硕士学位,并且在1985年从加利福尼亚大学圣地亚哥分校(University of California, San Diego)获得了认知科学博士学位。自1988年到1998年,Michael I. Jordan在麻省理工学院(MIT)任教授,他的研究方向包括了计算学、统计学、认知及生物科学,最近几年集中在贝叶斯非参数分析、概率图模型,谱方法、分布式计算系统中内核机及其应用问题、自然语言处理、信号处理和统计遗传学等问题上(几乎涵盖了大部分机器学习中的内容)。
Michael I. Jordan教授是美国科学院院士(National Academyof Sciences)、美国工程院(National Academy of Engineering)院士和美国艺术和科学学院(American Academy of Arts and Sciences)院士。他被数理统计研究所任命为Neyman Lecturer 和Medallion Lecturer。在2016年,他获得了IJCAI卓越研究奖。之前的2015年,他获得了David E. Rumelhart奖;在2009年,他获得了ACM/AAAI的Allen Newell奖。同时,他是AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM的成员。
曾在Michael I. Jordan教授学习过的不少学生已有不少成长为领域中的大牛,包括深度学习中的大神、蒙特利尔大学教授Yoshua Bengio,现任百度美国研究员首席科学家、斯坦福大学教授Andrew Ng(吴恩达),还有学界大牛斯坦福大学教授Percy Liang等人。本文是Michael I. Jordan教授在UC Berkeley有关计算思维、推理思维还有数据科学的演讲内容整理。
论计算思维、推理思维和“数据科学”Michael I Jordan
加州大学伯克利分校(University of California, Berkeley)
举例:一份工作描述(大约在2016年)如果你是一名来自伯克利的毕业生,当你毕业之后去硅谷可能会遇到的需求。
“这个系统对于任何一个人来说都要良好运行,我可以接受一点点错误但是不能有那些会让我们尴尬的愚蠢错误。”
Michael I Jordan:这意味着要将你的错误率降到特别低的程度,如果正确率有99%,那另外1%的用户遇到那些错误也是相当庞大的一个数字。
Michael I Jordan:当数据量增加时,错误率也会相应的增大,不一定数据越多速度会越快。
数据科学十分要求计算思维和推理思维的完全融合(推理思维出现才300年左右,已经开始拥抱各种思想,可以互相融合)
计算科学与统计中的核心理论是分别发展的,存在一个油与水的问题(互不相容的因素)
人们一般不愿意他们的个人数据在不受控制的情形下被使用,同时会担心他们的隐私将会损失多少。
原理:如果我们将n替换成有效地样本大小,隐私意识极大极小风险与经典的极大极小风险相同
非隐私观察:人们有时不想分享一些隐私数据,对此,我们应当通过什么办法进行隐私数据分析?
观点1:增加重尾噪音,以独立噪音(例如,拉普拉斯机制)为例,通过这种途径,便能够获得一手数据
大数据现象使分布式存储数据具有必要性(因而,Michael在数据分析系统中对数据添加一定的限制,即压缩(compression))。
衡量人类活动,尤其是在线活动,将产生大型数据集,这些数据集可用于个性化或用于开拓市场
相关文章
- Python中用PyTorch机器学习神经网络分类预测银行客户流失模型|附代码数据
- hive建表并添加数据_hive和mysql的关系
- 1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
- 根据系谱数据查看个体间关系
- 大数据NiFi(十一):NiFi入门案例一
- Matplotlib数据关系型图表(2)
- 【Windows 逆向】内存地址分析 ( 内存条 | 虚拟内存 | 内存地址及寻址范围 | 内存地址与数据的关系 )
- R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化|附代码数据
- SQLServer 错误 41349 警告:为包含具有持续性 SCHEMA_AND_DATA 的一个或多个内存优化表的数据库启用了加密。 不会对这些内存优化表中的数据加密。 故障 处理 修复 支持远程
- 简析SQL Server数据库用视图来处理复杂的数据查询关系
- MySQL数据库:掌握数据关系图(mysql数据关系图)
- OB52 记账期间变式和公司主数据关联关系详解编程语言
- Oracle 存储迁移:实现数据高效运转(oracle存储迁移)
- Oracle表的有效备注:提高数据安全性与质量(oracle表备注)
- Oracle用户数据导入之简易指南(oracle用户数据导入)
- 时间设置使用Java设置Redis数据过期时间(redisjava过期)
- 处理Java实现Redis中数据过期处理(redisjava过期)
- Oracle 同步软件:实现数据同步简单便捷(oracle同步软件)
- Neo4j技术:给数据关系图形化展示(neo4j 可视化)
- MySQL大数据分页技术实现(mysql 大数据 分页)
- MSSQL绝佳技巧:快速清空表中的数据(mssql清空表数据库)
- 深入探索MSSQL中表格数据的秘密(mssql查询表中数据)
- 利用Oracle关系表对象表实现数据存取(oracle关系表对象表)
- 以Oracle关系模式设计的数据一目了然(oracle关系模式)
- MySQL实现两表内连接如何在关系型数据库中连接两张表格,实现数据的交叉查询
- 收藏数据存储之Redis维护最佳实践(收藏数据怎么存redis)
- Redis解决解决数据管理之困(把所有数据都放redis)
- MySQL实现一对多数据关系(mysql一对多实现)
- 可少的数据库技术MYSQL是一项不可少的数据库技术,广泛应用于Web应用程序移动应用程序和企业级应用程序它是一个开源的关系型数据库管理系统,可支持各种操作系统编程语言和数据存储格式无论是网站还是应用程序,都需要使用数据库来存储和检索数据,MYSQL的稳定性可靠性和灵活性使其成为首选数据库技术