更新:2026-06-16
pcwl888.cn
56次
AI 抓取 / 获取信息的来源分两大类:训练数据来源、实时联网检索来源,二者完全分开
一、公开互联网网页
1、各类公开资讯网站、百科、论坛、博客、科普站点、行业门户(排除需要登录、付费、隐私加密的页面);
2、像维基百科、各类垂直科普、历史、技术公开文章都在此类;
二、公开书籍、文献、出版物
1、已进入公有版权、授权可商用的图书、教材、学术论文、政府公开白皮书、行业标准、古籍电子版等。
2、公开语料库、对话数据
3、开源对话数据集、新闻语料、影视剧字幕、官方公开演讲稿、法律法规全文、政府公示文件。
三、开源社区内容
1、GitHub 文档、技术论坛开源问答、开源教程、公开竞赛数据集。