您所在的位置:首页>综合>银座国际娱乐汇介绍·说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark
银座国际娱乐汇介绍·说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark
发布日期: 2020-01-11 16:07:37    作者:佚名     来源:未知

银座国际娱乐汇介绍·说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark

银座国际娱乐汇介绍,郭一璞 发自 中关村

量子位 报道 | 公众号 qbitai

怎么才能方便的找自己需要的代码?

最好是能用人话来直接搜索、说什么就给什么那种。

facebook刚刚发布了新benchmark和数据集,用于评估神经代码搜索模型。

比如在去年滑铁卢大学、facebook和uc伯克利的研究者发布的ncs模型,还有mit、facebook和uc伯克利发布的unif这个模型上,都可以运行。

在这类模型上,给到一个自然语言的query,比如:

代码搜索模型就会在整个语料库里搜索相关的代码片段。

因此,facebook此次推出的数据集包含以下三个部分:

总共包含3个部分:

github存储库

由github上近24549个星数最高的android库的代码片段组成的搜索语料库,包含python脚本。

搜索语料库

依靠前面的24549个库,解析其中的方法主体,总共包括4,716,814个。给到自然语言query后,代码搜索模型从中搜索出需要的代码片段。

每个方法主体已经给到了包括它的id、文件路径、起始行、结束行、url等在内的相关信息。

评估数据集

包含287个堆栈溢出问答对,包括其id、问题、答案url、答案几个部分,这些问题来自stack exchange。

在ncs和unif两个模型和他们的变体上的运行结果如下:

论文

neural code search evaluation dataset

hongyu li, seohyun kim, satish chandra

https://arxiv.org/abs/1908.09804

github

https://github.com/facebookresearch/neural-code-search-evaluation-dataset

ncs模型

retrieval on source code: a neural code search

saksham sachdev, hongyu li, sifei luan, seohyun kim, koushik sen, satish chandra

https://dl.acm.org/citation.cfm?id=3211353

unif模型

when deep learning met code search

jose cambronero, hongyu li, seohyun kim, koushik sen, satish chandra

https://arxiv.org/abs/1905.03813

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(qbitai)对话界面,回复“招聘”两个字。

量子位 qbitai · 头条号签约作者

վ'ᴗ' ի 追踪ai技术和产品新动态

188手机登陆

】【打印】【关闭窗口