爬虫政策
npm 的完整公共数据集可通过 公共注册表 获取。使用 CouchDB 复制,您可以获取所有元数据的完整副本,并且根据我们的使用条款,可以下载 tarballs 副本以供检查或实验。
npm 的 网站 也提供包元数据。我们允许 GoogleBot 等商业爬虫索引此内容。根据我们的判断,我们还允许实验性爬虫访问该网站,只要它们将请求速度保持在每秒 1 个请求或更少。以该速度,索引所有包需要 3 天时间,因此,如果您想要我们元数据的完整副本,通过复制访问数据始终更快,这只需要一两个小时才能提供完整的数据,并且此后会自动保持同步。
如果您不想安装 CouchDB 来管理复制,我们提供 开源软件,可以轻松地与注册表的公共 feed 同步。
如果您尝试通过高速爬取 npm 网站来访问包元数据,我们保留限制您的 IP、用户代理或两者速率或禁止其访问的权利。