zl程序教程

您现在的位置是:首页 >  工具

当前栏目

谷歌BigQuery现在允许查询所有GitHub开源项目了

GitHub项目开源谷歌 查询 所有 允许 现在
2023-09-11 14:21:17 时间

谷歌和GitHub宣布,谷歌BigQuery现在为GitHub上280多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL查询托管在GitHub上的将近20亿个开源文件。

GitHub的BigQuery数据集以GitHub Archive项目为基础,该项目旨在获取GitHub特定时点的快照,以便存储用来进行进一步的分析。借助GitHub的BigQuery数据集,现在随时可以通过任意类似SQL的查询查询GitHub Archive项目的内容。

GitHub开源项目经理Arfon Smith举了一个例子,新的BigQuery数据集可以用来找出哪个Go程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium上发表的一篇博文中,Hoffa列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析

GitHub的BigQuery数据集包含大约1.5TB的数据,每小时自动更新。下面是基本的使用步骤:

登录谷歌开发者控制台;

谷歌每月免费提供1TB的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB的免费数据。因此,他建议使用23GB的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python和Java。BigQuery还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery公共数据集是谷歌根据一项特别计划通过BigQuery提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery公共数据集提供的其他数据集包括美国人名、Hacker News自2006年以来的故事和评论、1029年和2016年之间的全球气候数据,等等。





====================================分割线================================


本文转自d1net(转载)


“扫一扫,不一定是二维码” ScanCan GitHub开源项目发起 扫 变废为宝,垃圾分类是一项长期推行的社会性行为,是每个人都必须养成的习惯。当前,在上海、苏州等地已经开始垃圾分类试行,3466.54万人正在开始进行垃圾分类,然后大量民众是不知道如何分类的。随着,垃圾分类的日益普及,越来愈多的人要加入到这项行动中来。通过 ScanCan 即可完成对任何一件物品的垃圾分类。
利用谷歌colab跑github代码AttnGAN详细步骤 深度学习实验(colab+pytorch+jupyter+github+AttnGAN) Google Colab,全名Colaboratory,是由谷歌提供的免费的云平台,可以使用pytorch、keras、tensorflow等框架进行深度学习。其GPU为Tesla T4 GPU,有很强的算力,对于刚入门机器学习或深度学习的用户,这个平台是不二之选。
如何用Github轻松拉取谷歌容器镜像 在k8s的深度实践中,我们有时需要拉取谷歌容器镜像,域名诸如gcr.io,k8s.gcr.io。但是由于网络的一些限制和成本的一些考量,做起来比较棘手。 国内的一些镜像加速,往往并不能提供持续的免费服务或者同步镜像的版本比较旧。 本文以拉取 k8s nginx ingress controller (https://github.com/kubernetes/ingress-nginx)容器镜像为例,来谈谈如何借助Github Actions + Github容器镜像服务来拉取谷歌镜像。