R语言数据挖掘1.2 数据源
2023-03-09 22:19:08 时间
1.2 数据源
数据充当数据挖掘系统的输入,因此数据存储库是非常重要的。在企业环境中,数据库和日志文件是常见来源;在网络数据挖掘中,网页是数据的来源;连续地从各种传感器中提取数据也是典型的数据源。
这里有一些免费的在线数据源十分有助于学习数据挖掘:
频繁项集挖掘数据存储库(Frequent Itemset Mining Dataset Repository):一个带有数据集的存储库,用于找到频繁项集的方法(http://fimi.ua.ac.be/data/)。
UCI机器学习存储库(UCI Machine Learning Repository):一个数据集的集合,适用于分类任务(http://archive.ics.uci.edu/ml/)。
statlib的数据及其描述库(The Data and Story Library at statlib):DASL是一个在线库,它拥有说明基本统计方法用途的数据文件和故事。我们希望提供来自多主题的数据,这样统计学教师可以找到学生感兴趣的真实世界的例子。使用DASL强大的搜索引擎来查找感兴趣的故事和数据文件(http://lib.stat.cmu.edu/DASL/)。
词汇网(WordNet):一个英语词汇数据库(http://wordnet.princeton.edu)。
相关文章
- 基于Amazon SageMaker完成ERNIE机器学习任务(一)—— 通过自带容器方法实现自定义算法的模型预训练
- 在 AWS 上构建安全的 Citrix 桌面云
- 宣布推出 TorchServe – 适用于 PyTorch 的开源模型服务器
- AWS ChatBot – 适用于 Slack 和 Chime 的 ChatOps
- Instaclustr 开源成功的标志
- python3 uuid模块
- AWS Snowball Edge 更新更快的硬件、OpsHub GUI、IAM 和 AWS Systems Manager
- python3 json模块
- testng+java+eclipse
- 2020 年 4 月份 AWS 在线技术讲座
- 新文章 – 使用 AWS Launch Wizard 加速 SAP 部署
- Mobileye 和 Skyscanner 在采取经过容量优化的 Spot 实例分配策略
- 利用 CloudFront Lambda@Edge 进行事务处理–按需生成缩略图并缓存
- 基于 AWS CodeCommit 可规模化的敏捷开发实践
- Java 8:CompletableFuture
- 使用 Amazon SageMaker 加速自定义 AI 医疗影像算法构建
- 第三部分 SAP on AWS HA Single AZ
- 使用 DeepAR 进行时间序列预测
- 在 Amazon SageMaker 中使用 XGBoost 来实现商业赋能
- 基于 Amazon GuardDuty 威胁级别的自动化通知