训练AI写代码还在用GitHub ?Project CodeNet或是更优解:1400万代码,50种编程语言
如今写代码已经成为各行各业的必备技能,学会写代码可以让计算机代替我们做一些重复的工作,极大提升工作效率。
但一个真正能帮你写代码的 AI 程序离我们还有多远?
5 月 5 日,IBM 向极少数媒体和学术界发布了 Project CodeNet,在当时并未引起过多关注。
CodeNet 完美继承了 ImageNet 的思想。ImageNet 是一个大规模的图像及其描述数据集,为 CV 的模型发展和标准化提供了巨大的帮助,也是深度学习计算机视觉进步的核心, 并且图像可免费用于非商业用途。
CodeNet 的目标是为人工智能写代码提供一个标准的数据库,它包含超过 1400 万个代码样本,涵盖 50 种编程语言,能够解决 4000 个编码问题。该数据集还包含许多附加数据,例如软件运行所需的内存量和运行代码的日志输出。
IBM 表示,Project CodeNet 是同类中最大、最具差异的数据集,它解决了当今编码中的三个主要用例:代码搜索(自动将一种代码翻译成另一种代码,包括像 COBOL 这样的遗留语言);代码相似性(识别不同代码之间的重叠和相似性);还有代码约束(根据开发人员的特定需求和参数定制约束)。
然而有安全研究人员认为 CodeNet 和类似项目最重要的影响不是优化代码,而是增加了自然语言编码(Natural Language Coding, NLC)的可能性。
近年来,OpenAI 和 Google 等公司一直在快速改进自然语言处理(NLP)技术。这些是机器学习驱动的程序,旨在更好地理解和模仿自然人类语言并在不同语言之间进行翻译。训练机器学习系统需要访问包含以所需人类语言编写的文本的大型数据集。
但写代码是一项很难学习的技能,更不用说掌握了,经验丰富的编码员应该精通多种编程语言。相比之下,NLC 利用 NLP 技术和诸如 CodeNet 之类的庞大数据库,能够利用英语来进行编程,最终使用任何其他自然语言都可以进行编码。
它可以使诸如设计网站之类的任务变得简单,只需输入一句话,然后就会出现一个符合要求的网站,这要求生成的代码都是可以运行的。
例如“制作带有飞机图像的红色背景,中间是公司的 logo,下方有一个与我联系的按钮。“
很明显,如此科幻的想法除了 IBM 以外还有很多人在做。
GPT-3 是 OpenAI 的一个 NLP 模型,在多项文本生成任务都遥遥领先,目前也已经被用于生成代码,输入就是预期的网站或者应用程序的自然语言描述,输出可运行的代码。
但是,在 IBM 的消息发布后不久,微软宣布已获得 GPT-3 的独家授权。
除了 GPT-3 外,微软还于 2018 年收购了互联网上最大的开源代码集合网站 GitHub。并且还开发了一个人工智能代码助手 GitHub Copilot,可以在 VS code 等 IDE 辅助开发,能够简化开发过程,但它是付费的。
虽然 Copilot 离 NLC 的目标还有很大距离,但它已经是向前迈了一大步了。
不过后续的测试来看,Copilot 除了抄袭开源代码和注释外,并不能创造代码,还会把其他用户的漏洞代码扩散开。
Copilot 是朝着 NLC 迈出的一大步,但它还远远没有实现 AI 写代码的功能。
虽然 NLC 还没有完全可行,但目前的研究方向正在迅速走向一个不需要长时间训练也能编程的未来,并且影响是巨大的。
首先,更多的研究和开发人员会产生更多的成果。有人认为潜在创新者的数量越多,创新率越高。
如果每个人都能写代码,那编程带来的创新潜力就会更大。
此外,计算物理学和统计社会学等学科越来越依赖于定制的计算机程序来处理数据,简化编写这类程序所需的技能要求,将提高计算机科学以外专业领域的研究人员部署新方法、做出新发现的能力。
然而,NLC 所需的人工智能的开发和部署资源相当昂贵,小公司根本无法支撑这种应用的开发和运行,所以最终很可能被微软、谷歌或 IBM 等主流巨头公司垄断。该服务可以收费提供,或者像大多数社交媒体服务一样免费提供。
并且我们有理由相信,由于机器学习需要大数据的支持,这些技术将由平台公司主导。从理论上讲,像 Copilot 这样的程序在引入新数据时会变得更好,也就是说使用的用户越多,效果越好,这种特性也使得新的竞争对手更难入场,即使他们有更强大或更良心的产品。
除非有强力的反垄断措施,否则大型资本主义企业集团似乎将成为下一次编码革命的把关人。
相关文章
- ChatGPT收费版真来了!每月134元告别排队卡顿,免费的还在,网友:蹲个「青春版」
- GPT-4被曝进入微软必应搜索,几周内完成
- arXiv正式规定:预印本不允许以ChatGPT等工具为作者
- AI绘画侵权实锤!扩散模型可能记住你的照片,现有隐私保护方法全部失效
- 「撩妹神器」不灵了!OpenAI重磅发布官方「ChatGPT检测器」
- Nature新规:用ChatGPT写论文可以,列为作者不行
- 一文聊聊软件定义汽车落地的五大关键要素
- 刚刚,ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了
- 脑补出新视角,一个统一的NeRF代码库框架已开源
- 俄版百度44.7G源码泄露!遭前员工背刺,涉及搜索地图打车电商等所有主要服务
- 理想L9路边自燃起火、俄罗斯科技巨头Yandex被前员工泄露44.7G源码、百度或将推出类ChatGPT聊天机器人 | T资讯
- 61岁程序员被迫线上求职,谷歌解雇高职位员工,开源专家也被炒
- GitHub 全球用户破亿,中国开发者超千万,如今联合微软、OpenAI要求驳回AI版权诉讼
- 生成AI登上达沃斯论坛,OpenAI CEO发话称AI将迈向下一个纪元
- 微软杀疯了!全家桶嵌入ChatGPT,云平台Azure强到发指
- AI偷偷写新闻70多篇,数月后才被人发现
- 被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了
- 微软又出大招,ChatGPT将加入云服务
- PyTorch统治学术论文,TensorFlow只占4%,LeCun:还能为啥?
- ChatGPT飙升苹果商店榜首,每周订阅需7.99美元,结果是个假的???