3.项目信息收集
📢 投研手册共建招募中 我们正在组团打造一份超实用、还不无聊的研究手册📘
📩 发邮件到:zey9991@gmail.com 邮件标题写:
【投研手册协作申请】+ 你的名字
✍️ 内容包括:想参与的方向、过往经验和每周可投入时间
🧠 你会收获什么?新朋友、写作技巧、项目视角、署名机会,还有可能是下一段旅程的开始!
在 Web3 投研中,信息收集犹如打地基——没有扎实、全面的资料,就难以在后续的商业模式、财务分析和估值环节得出可靠结论。与传统行业相比,区块链项目的信息源更分散、更新更迅速,既有链上数据,也有社群舆情;既有项目方官方口径,也有第三方研究角度。本课将带你逐层拆解这些信息渠道,梳理从“来源甄别”到“技术获取”的全流程,并强调交叉验证与合规引用的原则,帮助你构建既灵活又严谨的研究框架。
Web3 项目信息来源全景
按信息主体可大致分为三类:
项目方官方渠道
第三方研究与观点
第三方数据平台
项目方官方渠道
官方渠道是了解项目愿景、进度与团队思路的“主场”,但由于宣传属性,往往只呈现“最好的一面”。在使用时,你需要多维入口并行。
官网前端:除首页横幅的合作伙伴 logo,可重点浏览“Roadmap”、“Changelog”或“News”栏目,快速定位新版本发布、重大功能上线等关键事件。
官方文档:白皮书与技术文档是解锁项目运行逻辑的宝典。阅读时可先通览总纲,随后针对技术架构、共识机制、代币经济、合约接口等重点章节做标注。
官方新闻渠道:Medium、自建blog等,往往会配套长篇背景故事或访谈,弥补白皮书中“干货偏少”的不足。
社交媒体:以 X(前 Twitter)为主。团队或核心成员的个人账号常会提前抛出“AMA 预告”等等,关注这些账号能让你率先获悉一手动态。
社区社群:Telegram/Discord 群组是检查用户真实反馈与治理活跃度的重要窗口。可留意讨论热度、提问方向,以及管理员或开发者的响应频率。
第三方研究观点
市场上大大小小的研究机构和独立分析师常常发布研报或深度文章,提供了不同角度的独立视野。
机构示例:
Messari Protocol Reporting
Mint Ventures
Alea Research
Bankless
Delphi Digital
价值与风险:他们的观点能帮助你快速建立行业认知,但也有立场偏向。阅读时应关注研究者对方法论的说明,并与其他报告进行对比。
第三方数据平台
相比主观研报,专业数据平台侧重以链上/链下指标为核心,提供更具客观性的数值支持。根据数据类型,可分为:
链上运营数据
区块链浏览器(Etherscan、Arbiscan):原生交易、合约调用、钱包分布等。
Dune Analytics:开源 SQL 仪表盘,可快速查询和可视化链上指标。
DeFilama、DappRadar、L2BEAT:分别聚焦 DeFi 项目、dApp 活跃度和 Layer2 生态评分。
DexScreener、Token Terminal、Artemis Terminal:涵盖交易行情、财务指标、开发者活动等。
团队与融资信息
RootData、ICO Analytics:披露项目融资轮次、投资方及 ICO 回报情况。
LinkedIn:项目核心成员教育与从业背景。
社群与情绪数据
RootData、TrendX:推特关注量、项目热度排行、关键舆情事件。
代币经济与价格数据
Tokenomist、CryptoRank、DropsTab:代币分配、解锁节奏、重大解锁事件。
CoinMarketCap、CoinGecko、TradingView:多链市场价格和成交量。
信息搜集的推荐原则
在Web3项目投研中,收集到的信息质与量同等重要,但更关键的是如何甄别、核实与规范使用它们。本节将对“交叉验证”、“勤勉尽责”与“合理引用”三大原则做深入阐释,并为每项原则提供实践要点与示例。
交叉验证(Cross‑Check)
核心思想是永远不要只依赖一个信息源,通过多路比对,减少偏差与遗漏。
多维度比对
官方 vs. 链上数据
如项目方宣称「月活跃地址数突破10万」,应在Etherscan或Dune上验证真实地址增长曲线。
官方 vs. 第三方
当官方公布大额融资消息,可在RootData、ICO Analytics或公告截图中再次确认资金到帐记录与投资方名单。
区分一手与二手资料
一手资料:白皮书原文、官方技术文档、链上事件日志。最贴近项目真实意图与技术实现。
二手资料:他人解读或摘录,如博客文章、研究报告摘要。具有参考价值,但易带入作者偏见。
勤勉尽责(Due Diligence)
核心思想是可以引用第三方报告,但必须经过自己审慎研究,确保内容靠谱
亲阅原始报告
不要仅看摘要与结论,至少快速浏览报告的“方法论”“假设”与“数据来源”章节。
留意报告发布时间,避免使用已被市场变化“淘汰”的旧数据。
关键数据再核实
对于重要数据点(如TVL、代币发行量、链上活跃度),在多个数据平台(Dune、DeFilama、Token Terminal)交叉检查。
若发现数据差异,追踪各平台的统计口径(例如“TVL 是否计入借贷利息”)。
怀疑常态化
比如,面对“天使轮仅抵押0.1 ETH挖到10万枚代币”之类听起来“过于美好”的案例,要反问:
该项目的智能合约地址是否可查?
代币是否真实可转移或存在销毁机制?
合理引用(Proper Attribution)
核心思想是尊重知识产权与学术规范,让研报既有深度,也充满诚信。
使用他人文章、观点、材料、图表等,明确标注出处,避免学术或商业剽窃;
若借鉴他人模型或思路,需在报告中附录模型原始出处及适用前提。
描述一些共识性的内容
如果用自己的语言进行描述(eg.大白话讲解“标准差”的定义)完全可以
如果直接从他人材料中摘抄(eg.出版物中直接复制“标准差”的定义)而未加引用则可能被视为“不当引用”
对于公开的政府或行业数据(如统计局、央行报告),可直接使用并注明来源
若是盈利机构发布的某些指数,使用时必须引用
效率倍增的技术工具
随着 Web3 项目生态的日益复杂,仅依赖人工“手动查找+截图保存”的方式已难以满足系统化投研的效率要求。尤其是在需要频繁跟踪链上指标、抓取动态数据或筛选大量项目信息的场景下,熟练运用自动化工具不仅能大幅提升工作效率,也能降低主观误判的风险。
本节将系统介绍三种核心技术工具:API 调用、网页爬虫与大语言模型(LLM)辅助,并配合实际案例,帮助你在数据获取过程中既高效又合规。
1. API 调用:结构化与实时数据的首选方式
✅ 什么是 API?
API(Application Programming Interface)是指“应用程序接口”,通俗理解就是数据服务商为你开放的一扇窗口,你可以通过它向特定平台“提问”,并获得结构化的“回答”。
在Web3领域,越来越多项目与平台开放了自己的API接口,如链上数据服务商(Etherscan、The Graph)、行情平台(CoinGecko、CoinMarketCap)、数据分析平台(Token Terminal、DefiLlama)等。
🚀 应用场景
自动抓取某项目代币的实时价格、交易量等;
获取某地址或合约的历史交易记录;
定时更新某类协议(如Lending协议)的TVL变动;
批量分析多个项目的财务指标或用户增长曲线。
🛠️ 实操路径
注册账号并获取 API Key(有些无需授权即可调用)
仔细阅读接口文档,理解参数含义、请求方式(GET/POST)及返回格式(通常是 JSON)
使用脚本或代码调用接口(Python推荐使用
requests
或httpx
库)将返回数据进行解析(如提取为表格、接入数据库或可视化工具)
2. 网页爬虫(Web Scraping):非结构化数据的强力补充
✅ 本质解释
网页爬虫是一种程序化手段,用来模拟人类浏览网页的行为,自动抓取网页上的信息——尤其是当目标平台没有API接口或信息更新频繁但结构混乱时,爬虫是必不可少的辅助工具。
🚀 使用场景
抓取某项目官网公告页上的版本更新日志;
扫描 Telegram、Discord 社群页面的用户发言数量、关键讨论话题;
定向监测官网路线图页面是否发布了新内容;
下载白皮书、治理提案等文档列表并提取发布时间。
🛠️ 工具推荐
Python 库如
requests
,BeautifulSoup
,lxml
,selenium
;对于动态加载页面推荐使用浏览器模拟工具(如
Playwright
,Selenium
)抓取完整HTML;可配合定时任务(cron job)或 notebook 做周期性抓取与差分监测。
⚠️ 合规风险与使用边界
遵守 robots.txt 协议:该文件告知爬虫哪些页面可以或不可以抓取;
避免高频爬取行为:应设置合理的访问间隔(sleep),以防对目标网站造成压力;
尊重平台服务条款:有些平台明确禁止自动化访问(尤其是社群工具),务必审阅其使用协议。
💡 建议在初学阶段先练习公开网站的爬虫(如 DappRadar 或 CoinGecko 项目页面),再逐步扩展到更复杂的结构或数据提取任务。
3. 大语言模型(LLM)辅助:智能“搜索引擎” + 智能“写作助手”
✅ LLM 在信息收集中的角色
随着大语言模型能力的持续增强,它们已经不仅仅是一个“聊天机器人”,而逐渐演变为新一代智能搜索引擎与内容创作工具的结合体。以 ChatGPT、Claude、Gemini 等为代表的模型,具备极强的信息归纳、文献总结、技术解析能力,尤其适合处理信息繁杂、语言结构复杂的项目资料。
相比传统搜索引擎需要用户“自己判断和筛选”,具备联网能力的大语言模型能先查后答、归纳提炼、结构清晰地呈现答案,极大地提升了信息获取的效率和准确性。
🚀 使用场景示例
作为“智能搜索引擎”:
直接向模型提问:“这个项目最近是否有融资?谁是领投方?”
开启“搜索网页”功能,模型将自动查询官网、RootData、推特等来源并总结答案;
提升查询效率,省去自己手动跳转多个网页的繁琐过程。
作为“写作助手”:
快速归纳多个文档的共同要点(如白皮书、治理提案、生态公告);
提炼出项目代币模型中的风险点或设计亮点;
生成爬虫脚本、API 查询逻辑、正则表达式等“辅助代码”;
帮助撰写研报中结构性内容(如估值模型框架、商业模式拆解等);
✅ 实践提示:想要让 LLM 更像一个“专业搜索员”,建议在提问时明确说明目标(如“请查阅 Dune、DeFiLlama 和 CoinGecko 的最新数据”),并开启联网搜索功能。这样可以大幅提升答案的准确性和时效性,尤其适合研究“仍在快速发展”的 Web3 项目。
⚠️ 注意 LLM 的“幻觉问题”及其解决方案
尽管大语言模型在信息处理方面表现出色,但它们仍可能出现所谓的“幻觉”现象——即在缺乏事实支撑的情况下生成看似合理但实则虚假的信息,尤其在涉及具体数据、事实陈述或引用内容时更为明显。
在投研场景中,这种幻觉可能带来误导性的结论,进而影响投资判断。因此,对 LLM 的输出结果必须始终保持批判性核查,特别是在以下几类任务中:
解释技术机制(例如 ZK Rollup 的工作原理)时可能编造术语;
提供项目估值或财务指标时可能臆造数据;
总结白皮书内容时可能遗漏关键限定条件或曲解含义。
✅ 减少幻觉的两种有效手段:
使用“文献上传+精准问答”模式 可通过 PDF 上传与上下文嵌入(如基于 RAG 架构)来“喂给”模型明确的原始材料,使其在生成答案时有据可依,而非“凭空创作”。
借助“联网搜索”能力进行实时查证(广义 RAG 应用) 越来越多的大语言模型,如 GPT、Claude、Gemini 等,已集成了“搜索网页工具(Web Browsing Tool)”,使模型能够在回答问题前实时查阅互联网内容,而不是完全依赖已有的训练数据。这在 Web3 领域尤为重要,因为很多项目信息(如 TVL、解锁进度、治理提案等)每天都在变化。
实际上,这类“搜索网页”工具的工作机制,可以看作是一种广义的 RAG 架构(Retrieval-Augmented Generation) 应用。它的核心流程是:
先检索(Retrieval):通过浏览器工具自动访问目标网页、查找最新资料;
再生成(Generation):将这些网页内容作为上下文“喂给”模型,生成有依据的回答。
与本地上传 PDF 等资料的 RAG 相比,联网搜索的优势在于数据是实时的、范围是开放的,特别适合以下典型场景:
提问时模型不确定某个项目的最新进展或链上数据,自动查询官网或第三方平台;
请求对多个媒体来源(如 Medium、Twitter)的分析时,模型会先抓取网页再归纳总结;
查证某篇研究、新闻或社区言论是否真实存在,是否有其他渠道支持或反驳。
✅ 实践提示:提问前可主动开启“搜索网页”功能,并明确指示模型“请查阅最新官网内容”或“请搜索 Dune 图表数据并引用”,这样做往往能显著提高答案的准确性与参考价值,尤其在链上数据实时性要求较高的研究任务中。
🧩 小结建议
生成内容时始终核查关键事实;
合理搭配 LLM 的“生成能力”与“搜索能力”;
对模型引用的外部内容保持出处敏感,避免断章取义或过度依赖。
本课总结
在 Web3 世界中,信息的不对称和过载并存,这对投研提出了更高要求。本节课程围绕“信息收集”这一投研的第一道关口,帮助你从渠道认知、验证原则到技术工具三大维度,逐步搭建起科学、系统的信息获取体系。
我们首先梳理了 Web3 项目的信息来源全景,指出除了项目方的官方口径外,还需重视第三方观点与链上数据的交叉验证;接着提出了“交叉验证、勤勉尽责、合理引用”三大原则,帮助你在信息使用过程中既保持严谨,又不失灵活;最后,通过 API、爬虫与大语言模型三种工具的解析与实操示例,为你开启高效获取结构化信息的大门。
无论是追踪项目动态、研判财务指标,还是解析技术机制,信息搜集能力始终是决定一份研报深度与质量的基石。更重要的是,我们不只是为了“找到数据”,而是为了“理解数据”与“信任数据”。
在接下来的课程中,你将以此为基础,深入探索商业模式的结构分析、财务指标的量化解读,以及估值方法的逻辑构建。每一份真正有洞察力的研报,背后都站着一位懂得“如何发现信息”的研究者,而你正在成为这样的人。
课后思考
信息渠道回顾 请你回忆最近关注的一个Web3项目(可以是你感兴趣的DeFi协议、NFT平台或基础设施项目),尝试列举出你曾接触过的所有信息来源。
这些信息分别属于“项目方官方”、“第三方研究”还是“第三方数据平台”?
哪些来源是你信任的?又有哪些让你有所保留?为什么?
验证与引用练习 找一条你曾在社交媒体或研报中看到的“数据或观点”,尝试用两种不同的渠道去交叉验证其真实性。
在过程中是否遇到“说法不同”或“口径不一致”的情况?你是如何判断哪一方更可信的?
如果你要在自己的研报中引用这个信息,你会如何标注来源?
工具使用反思 在你以往的研究过程中,有没有使用过API、爬虫、ChatGPT等技术手段?
哪些工具你最常用?哪些你还不熟悉但愿意尝试?
如果让你用其中一种工具来获取“某项目的解锁进度”或“链上活跃用户”,你会怎么做?写出你的思路或初步操作路径。
研究者素养 在信息爆炸的时代,如何避免“抄来抄去的研报”成为你内容的主旋律?
你认为“勤勉尽责”与“合理引用”在投研写作中意味着什么?
未来你打算如何在保持原创的同时,正确借鉴他人成果?
内容声明
AI 协助声明 本书部分内容由人工智能工具(如 ChatGPT)协助整理和润色,具体包括:内容草拟、语言优化、结构调整等。所有输出均经作者人工审校,力求表达准确、逻辑清晰。 若您对 AI 参与创作有所顾虑,建议谨慎阅读与参考。
署名与许可协议 除特别说明外,本书由 Peyton 撰写,隶属于 LYS Lab 研究团队原创发布,收录于项目 Web3-research-handbook(Web3 投研手册)。全文采用 Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International(CC BY-NC-ND 4.0) 协议共享。
您可以在不修改内容、仅用于非商业用途的前提下自由转载和分享本书,但必须注明原作者与来源。 严禁擅自改编、删改或用于任何商业用途。作者及 LYS Lab 保留未来以其他方式授权或商用的全部权利。
推荐署名格式示例:
本文原载于《Web3-research-handbook(Web3 投研手册)》,由 Peyton 编写,隶属 LYS Lab,遵循 CC BY-NC-ND 4.0 协议发布。协议链接:https://creativecommons.org/licenses/by-nc-nd/4.0/deed.zh
免责声明 所有内容仅供学习交流使用,不构成任何投资、法律或其他实务建议。如书中引用第三方数据或接口,请以其官方文档为准。
最后更新于