对现成所有域名站点进行全量爬取
唯一,不是成本控制,是最美的史诗,宏伟壮丽
Proj. Elder Brain, Cthulhu Xenomorph Crusade Datasets
Proj. Cthulhu Xenomorph Crusade
Proj. Sauron Crusade
.com / .net / .org / .xyz / .info / .top / etc. TLDs
.cn / .me / .us / .ai / .cc / .co / .io / etc. cTLDs.
第一次十字军计划 - 扫荡 (2024.9-2025.1)
10亿规模数仓,配额 2TB - 10TB 核心dim表
全量寻获所有域名(DNS Dump)
全量爬取最新首页记录内容
对所有域名进行全网检索
是否可以从DNS中检索全部域名信息。
检索全部网站和其主题。
把DNS dump后执行遍历
第一次十字军计划 & 编年史 - 史诗 (2024.9-2025.1)
预启动计划,历史快照全量爬取(难度极大,现在是私域流量,需系统性调研)
第二次十字军计划 - 长征 (2025.1-2026.06) 1.5年马拉松计划
系统性分类现有数仓数据,把所有域名进行系统性分类、标签化、主题化
对各主题域名进行分级,对高优任务进行网站采样爬取(二期)
100TB - 1PB 数仓计划
2680v4 14core
2672v4 20core
4710 * 2 08core
Edge * 5 5core
47 ~ 50 core * 5 => 250Threads / Cluster
250ms / request
( 1 / 0.25 ) * 250 => 1000 RPS
400KB / Page
400KB * 1000 => 390.625 MB/s Net Inbound
350MB/s * 3600 * 24 => 29PB/Day
实际上目标服务器会限速,一般只可能达到 1PB / Day 95%损耗
4294901760 * 400KB = 16PB
Last editor:undefined Update time:2024-10-15 19:41