Skip to main content

AI研究数据集的构建

· 3 min read
Jiakai Gu
GXMZU 2026 Graduate

介绍AI研究数据库集的构建。

牢记"Garbage In, Garbage Out"1 2的原则,进行数据集的构建工作。

claude 3.7 sonnet对于垃圾进、垃圾出的解释

GPT 4.5对于垃圾进、垃圾出的解释


数据集专注的主题:LLM、RAG、Agent。数据集的时间线均处于较新的日期,当然经典的NLP论文也被包含在内。

数据集来源

  • 高质量论文数据集

既包含了ACL、NeurIPS等顶刊顶会论文,也包含了一些尚未发表,但具有现实意义的高质量论文【如arXiv论文】。

AI领域变化实在太快,几个月前就已经是古代了。期刊、国际会议一审就是一年/1~2个月,不适用于AI领域。—台大李宏毅老师3

论文的PDF处理借助了MinerU4等PDF转Markdown工具转换,主要采用的是MinerU【上海人工智能实验室OpenDataLab团队开源的项目】工具,部分文档采用了Docling5这一工具。

对比了很多其他的开源工具后,这两者是我使用下来成本最低【几乎零成本】,效果最好的PDF转Markdown工具。当然也有借助LLM来进行转换的工具,但成本较为昂贵。对于RAG问答系统而言,PDF转Markdown准确率在95%以上,就已经足够好了。

PDF转Markdown后,人工去除了作者、致谢、参考文献等部分内容,毕竟这些内容对于RAG问答系统而言有太多的噪音信息。有关论文中的图表部分,但凡能精确转换的图表均会保留,转换不了的,图表会做丢弃处理。

人工二次精校后,再对数据进行存储操作!

  • 高质量博文数据集

包含了Huggingface、微信公众号等平台的高质量文章,利用jina reader6、firecrawl7等抓取工具,将网页内容转换为LLM友好的Markdown格式。

数据集开源地址:

Footnotes

  1. https://en.wikipedia.org/wiki/Garbage_in,_garbage_out

  2. https://towardsdatascience.com/garbage-in-garbage-out-721b5b299bc1/

  3. https://www.youtube.com/watch?v=M2Yg1kwPpts

  4. https://github.com/opendatalab/MinerU

  5. https://github.com/DS4SD/docling

  6. https://jina.ai/

  7. https://www.firecrawl.dev/