AI研究数据集的构建
· 3 min read
介绍AI研究数据库集的构建。
牢记"Garbage In, Garbage Out"1 2的原则,进行数据集的构建工作。
数据集专注的主题:LLM、RAG、Agent。数据集的时间线均处于较新的日期,当然经典的NLP论文也被包含在内。
数据集来源
- 高质量论文数据集
既包含了ACL、NeurIPS等顶刊顶会论文,也包含了一些尚未发表,但具有现实意义的高质量论文【如arXiv论文】。
AI领域变化实在太快,几个月前就已经是古代了。期刊、国际会议一审就是一年/1~2个月,不适用于AI领域。—台大李宏毅老师3
论文的PDF处理借助了MinerU4等PDF转Markdown工具转换,主要采用的是MinerU【上海人工智能实验室OpenDataLab团队开源的项目】工具,部分文档采用了Docling5这一工具。
对比了很多其他的开源工具后,这两者是我使用下来成本最低【几乎零成本】,效果最好的PDF转Markdown工具。当然也有借助LLM来进行转换的工具,但成本较为昂贵。对于RAG问答系统而言,PDF转Markdown准确率在95%以上,就已经足够好了。
PDF转Markdown后,人工去除了作者、致谢、参考文献等部分内容,毕竟这些内容对于RAG问答系统而言有太多的噪音信息。有关论文中的图表部分,但凡能精确转换的图表均会保留,转换不了的,图表会做丢弃处理。
人工二次精校后,再对数据进行存储操作!
- 高质量博文数据集
包含了Huggingface、微信公众号等平台的高质量文章,利用jina reader6、firecrawl7等抓取工具,将网页内容转换为LLM友好的Markdown格式。
数据集开源地址: