Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
目录
Higgs Boson比赛简介
希格斯玻色子(英语:Higgs boson),是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希格斯玻色子是希格斯场的量子激发。希格斯粒子的衰变能动会生成耦合实粒子。根据希格斯机制,基本粒子因与希格斯场耦合而获得质量。假若希格斯玻色子被证实存在,则希格斯场应该也存在,而希格斯机制也可被确认为基本无误。
希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。 2012年7月4日,欧洲核子研究组织(CERN)宣布,LHC的紧凑渺子线圈(CMS)探测到质量为125.3±0.6GeV的新玻色子(超过背景期望值4.9个标准差),超环面仪器(ATLAS)测量到质量为126.5GeV的新玻色子(5个标准差),这两种粒子极像希格斯玻色子。 2013年3月14日,欧洲核子研究组织发表新闻稿正式宣布,先前探测到的新粒子暂时被确认是希格斯玻色子,具有零自旋与偶宇称,这是希格斯玻色子应该具有的两种基本性质,但有一部分实验结果不尽符合理论预测,更多数据仍在等待处理与分析。 2013年10月8日,因为“次原子粒子质量的生成机制理论,促进了人类对这方面的理解,并且最近由欧洲核子研究组织属下大型强子对撞机的超环面仪器及紧凑μ子线圈探测器发现的基本粒子证实”,弗朗索瓦·恩格勒、彼得·希格斯荣获2013年诺贝尔物理学奖。
一个粒子的重要特点是它在其他粒子之后延迟多少。CERN用ATLAS进行物理实验来寻找新粒子。实验最近发现一个 Higgs boson延迟在两个tau粒子出现,但是该延迟只是淹没在背景噪声中的小信号。
竞赛官网: https://www.kaggle.com/c/higgs-boson/
相关介绍:Higgs boson machine-learning challenge
该竞赛的目的是利用机器学习方法,提高ATLAS实验发现粒子的显著性。竞赛无需粒子物理的背景知识(解决实际问题时背景知识在很大程度上还是有用的)。竞赛数据是根据ATLAS检测到的事件的特征合成的数据,竞赛任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"
这是一个两类分类任务:将事件分类为"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子机器学习挑战的目标是探索先进机器学习方法的潜力,提高实验发现的意义。不需要粒子物理学知识。使用ATLAS检测到的具有表征事件特征的模拟数据,您的任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"。
- 每个事件有一个ID,30个特征,权重,和标签
- 用交叉验证选择迭代次数
- 与sklearn中的GBM速度与性能比较
1、数据集介绍
File descriptions
- training.csv - Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.
- test.csv - Test set of 550000 events with an ID column and 30 feature columns.
- random_submission - Sample submission file in the correct format. File format is described on the Evaluation page.
- HiggsBosonCompetition_AMSMetric - Python script to calculate the competition evaluation metric.
For detailed information on the semantics of the features, labels, and weights, see the technical documentation from the LAL website on the task.
Some details to get started:
- all variables are floating point, except PRI_jet_num which is integer
- variables prefixed with PRI (for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.
- variables prefixed with DER (for DERived) are quantities computed from the primitive features, which were selected by the physicists of ATLAS
- it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is −999.0, which is outside the normal range of all variables
training.csv:训练集包含250000个事件,每个事件有一个ID,30个特征,权重,和标签。
test.csv:测试数据包含550000事件,每个事件包含一个ID和30个特征。
(1)、所有变量都是floating point类型,除了PRI_jet_num 为integer 以PRI (PRImitives) 为的前缀特征为检测器测量得到的关于bunch collision“原始” 数据。 以DER ( DERived)为ATLAS的物理学家选择的根据原始特征计算得到的数据。 缺失数据记为 −999.0, 与所有特征的正常值不同。
(2)、特征、权重和标签的具体语意可以查看CERN的技术文档。
2、比赛排行榜
Higgs Boson数据集的下载
本数据集,如有需要,可留言向博主索取
Higgs Boson数据集的案例应用
ML之xgboost:基于xgboost(5f-CrVa)算法对Higgs Boson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类任务
相关文章
- 电脑表格制作步骤word_php入门案例
- Abdomen2015——腹部13类器官分割案例实现(续)
- 后端必读《Spring Boot实战》,企业级真实应用案例
- php案例:用GD库生成单色图案
- 虚拟现实技术成功应用案例分析_虚拟现实技术的案例
- Thinkphp5学习012-项目案例-编辑学生模板设计
- 案例分享——低压电力线载波通信模组(借助电源线实现远距离数据传输、宽压输入、波特率范围广、应用场景多样化)
- 超融合时序数据库YMatrixDB与PostGIS案例
- Scratch3.0——助力新进程序员理解程序(案例一十三、黑红相见)
- 【rainbowzhou 面试11/101】技术提问--说说你做的大数据性能测试案例
- Postgresql 数据库基础 字符串截取字符串的案例
- Hadoop入门进阶课程6–MapReduce应用案例详解大数据
- Redis应用于php,连接mysql的完整案例详解大数据
- PHP多进程学习(三)__代码案例来了解父进程与子进程的执行顺序详解编程语言
- MySQL简单应用实例:怎样才能更好的应用?(mysql简单案例)
- 实战案例:实现其它应用的高可用性
- 【信息诈骗典型案例】之“分享朋友圈免费送手机”
- 嵌入式Linux应用实例:25个用例分析(linux嵌入式应用案例)
- 嵌入式Linux应用案例:精彩实例分享(嵌入式linux应用实例)
- 优化技巧及应用案例(mysql数据表结构)
- 中国工程院院士陈纯:自主可控联盟链的技术难点和应用案例
- 医学影像 AI 走向临床应用阶段,这五家公司为何快人一步?丨AI最佳掘金案例榜
- Redis成功应用于企业,效率大幅提升——案例分析(redis企业应用案例)
- 探索Linux服务器实践与案例,助力提升服务稳定性和安全性(linux服务器案例)
- MySQL一对一关系的实际应用案例分享(mysql一对一案例)
- jsreplace正则表达式应用案例讲解
- 利用委托把用户控件的值显示于网页案例应用
- 通过url查找a元素应用案例