3.项目信息收集

📢 投研手册共建招募中 我们正在组团打造一份超实用、还不无聊的研究手册📘

📩 发邮件到:zey9991@gmail.com 邮件标题写:【投研手册协作申请】+ 你的名字

✍️ 内容包括:想参与的方向、过往经验和每周可投入时间

🧠 你会收获什么?新朋友、写作技巧、项目视角、署名机会,还有可能是下一段旅程的开始!

在 Web3 投研中,信息收集犹如打地基——没有扎实、全面的资料,就难以在后续的商业模式、财务分析和估值环节得出可靠结论。与传统行业相比,区块链项目的信息源更分散、更新更迅速,既有链上数据,也有社群舆情;既有项目方官方口径,也有第三方研究角度。本课将带你逐层拆解这些信息渠道,梳理从“来源甄别”到“技术获取”的全流程,并强调交叉验证与合规引用的原则,帮助你构建既灵活又严谨的研究框架。

Web3 项目信息来源全景

按信息主体可大致分为三类:

  1. 项目方官方渠道

  2. 第三方研究与观点

  3. 第三方数据平台

项目方官方渠道

官方渠道是了解项目愿景、进度与团队思路的“主场”,但由于宣传属性,往往只呈现“最好的一面”。在使用时,你需要多维入口并行。

  1. 官网前端:除首页横幅的合作伙伴 logo,可重点浏览“Roadmap”、“Changelog”或“News”栏目,快速定位新版本发布、重大功能上线等关键事件。

  2. 官方文档:白皮书与技术文档是解锁项目运行逻辑的宝典。阅读时可先通览总纲,随后针对技术架构、共识机制、代币经济、合约接口等重点章节做标注。

  3. 官方新闻渠道:Medium、自建blog等,往往会配套长篇背景故事或访谈,弥补白皮书中“干货偏少”的不足。

  4. 社交媒体:以 X(前 Twitter)为主。团队或核心成员的个人账号常会提前抛出“AMA 预告”等等,关注这些账号能让你率先获悉一手动态。

  5. 社区社群:Telegram/Discord 群组是检查用户真实反馈与治理活跃度的重要窗口。可留意讨论热度、提问方向,以及管理员或开发者的响应频率。

第三方研究观点

市场上大大小小的研究机构和独立分析师常常发布研报或深度文章,提供了不同角度的独立视野。

  • 机构示例

    • Messari Protocol Reporting

    • Mint Ventures

    • Alea Research

    • Bankless

    • Delphi Digital

  • 价值与风险:他们的观点能帮助你快速建立行业认知,但也有立场偏向。阅读时应关注研究者对方法论的说明,并与其他报告进行对比。

第三方数据平台

相比主观研报,专业数据平台侧重以链上/链下指标为核心,提供更具客观性的数值支持。根据数据类型,可分为:

  1. 链上运营数据

    • 区块链浏览器(Etherscan、Arbiscan):原生交易、合约调用、钱包分布等。

    • Dune Analytics:开源 SQL 仪表盘,可快速查询和可视化链上指标。

    • DeFilama、DappRadar、L2BEAT:分别聚焦 DeFi 项目、dApp 活跃度和 Layer2 生态评分。

    • DexScreener、Token Terminal、Artemis Terminal:涵盖交易行情、财务指标、开发者活动等。

  2. 团队与融资信息

    • RootData、ICO Analytics:披露项目融资轮次、投资方及 ICO 回报情况。

    • LinkedIn:项目核心成员教育与从业背景。

  3. 社群与情绪数据

    • RootData、TrendX:推特关注量、项目热度排行、关键舆情事件。

  4. 代币经济与价格数据

    • Tokenomist、CryptoRank、DropsTab:代币分配、解锁节奏、重大解锁事件。

    • CoinMarketCap、CoinGecko、TradingView:多链市场价格和成交量。

信息搜集的推荐原则

在Web3项目投研中,收集到的信息质与量同等重要,但更关键的是如何甄别、核实与规范使用它们。本节将对“交叉验证”、“勤勉尽责”与“合理引用”三大原则做深入阐释,并为每项原则提供实践要点与示例。

交叉验证(Cross‑Check)

核心思想是永远不要只依赖一个信息源,通过多路比对,减少偏差与遗漏。

多维度比对

  • 官方 vs. 链上数据

    • 如项目方宣称「月活跃地址数突破10万」,应在Etherscan或Dune上验证真实地址增长曲线。

  • 官方 vs. 第三方

    • 当官方公布大额融资消息,可在RootData、ICO Analytics或公告截图中再次确认资金到帐记录与投资方名单。

区分一手与二手资料

  • 一手资料:白皮书原文、官方技术文档、链上事件日志。最贴近项目真实意图与技术实现。

  • 二手资料:他人解读或摘录,如博客文章、研究报告摘要。具有参考价值,但易带入作者偏见。

勤勉尽责(Due Diligence)

核心思想是可以引用第三方报告,但必须经过自己审慎研究,确保内容靠谱

亲阅原始报告

  • 不要仅看摘要与结论,至少快速浏览报告的“方法论”“假设”与“数据来源”章节。

  • 留意报告发布时间,避免使用已被市场变化“淘汰”的旧数据。

关键数据再核实

  • 对于重要数据点(如TVL、代币发行量、链上活跃度),在多个数据平台(Dune、DeFilama、Token Terminal)交叉检查。

  • 若发现数据差异,追踪各平台的统计口径(例如“TVL 是否计入借贷利息”)。

怀疑常态化

  • 比如,面对“天使轮仅抵押0.1 ETH挖到10万枚代币”之类听起来“过于美好”的案例,要反问:

    • 该项目的智能合约地址是否可查?

    • 代币是否真实可转移或存在销毁机制?

合理引用(Proper Attribution)

核心思想是尊重知识产权与学术规范,让研报既有深度,也充满诚信。

  • 使用他人文章、观点、材料、图表等,明确标注出处,避免学术或商业剽窃;

  • 若借鉴他人模型或思路,需在报告中附录模型原始出处及适用前提。

  • 描述一些共识性的内容

    • 如果用自己的语言进行描述(eg.大白话讲解“标准差”的定义)完全可以

    • 如果直接从他人材料中摘抄(eg.出版物中直接复制“标准差”的定义)而未加引用则可能被视为“不当引用”

    • 对于公开的政府或行业数据(如统计局、央行报告),可直接使用并注明来源

      • 若是盈利机构发布的某些指数,使用时必须引用

效率倍增的技术工具

随着 Web3 项目生态的日益复杂,仅依赖人工“手动查找+截图保存”的方式已难以满足系统化投研的效率要求。尤其是在需要频繁跟踪链上指标、抓取动态数据或筛选大量项目信息的场景下,熟练运用自动化工具不仅能大幅提升工作效率,也能降低主观误判的风险。

本节将系统介绍三种核心技术工具:API 调用、网页爬虫与大语言模型(LLM)辅助,并配合实际案例,帮助你在数据获取过程中既高效又合规。

1. API 调用:结构化与实时数据的首选方式

✅ 什么是 API?

API(Application Programming Interface)是指“应用程序接口”,通俗理解就是数据服务商为你开放的一扇窗口,你可以通过它向特定平台“提问”,并获得结构化的“回答”。

在Web3领域,越来越多项目与平台开放了自己的API接口,如链上数据服务商(Etherscan、The Graph)、行情平台(CoinGecko、CoinMarketCap)、数据分析平台(Token Terminal、DefiLlama)等。

🚀 应用场景

  • 自动抓取某项目代币的实时价格、交易量等;

  • 获取某地址或合约的历史交易记录

  • 定时更新某类协议(如Lending协议)的TVL变动

  • 批量分析多个项目的财务指标或用户增长曲线。

🛠️ 实操路径

  1. 注册账号并获取 API Key(有些无需授权即可调用)

  2. 仔细阅读接口文档,理解参数含义、请求方式(GET/POST)及返回格式(通常是 JSON)

  3. 使用脚本或代码调用接口(Python推荐使用 requestshttpx 库)

  4. 将返回数据进行解析(如提取为表格、接入数据库或可视化工具)

2. 网页爬虫(Web Scraping):非结构化数据的强力补充

✅ 本质解释

网页爬虫是一种程序化手段,用来模拟人类浏览网页的行为,自动抓取网页上的信息——尤其是当目标平台没有API接口信息更新频繁但结构混乱时,爬虫是必不可少的辅助工具。

🚀 使用场景

  • 抓取某项目官网公告页上的版本更新日志

  • 扫描 Telegram、Discord 社群页面的用户发言数量、关键讨论话题

  • 定向监测官网路线图页面是否发布了新内容;

  • 下载白皮书、治理提案等文档列表并提取发布时间。

🛠️ 工具推荐

  • Python 库如 requests, BeautifulSoup, lxml, selenium

  • 对于动态加载页面推荐使用浏览器模拟工具(如 Playwright, Selenium)抓取完整HTML;

  • 可配合定时任务(cron job)或 notebook 做周期性抓取与差分监测。

⚠️ 合规风险与使用边界

  • 遵守 robots.txt 协议:该文件告知爬虫哪些页面可以或不可以抓取;

  • 避免高频爬取行为:应设置合理的访问间隔(sleep),以防对目标网站造成压力;

  • 尊重平台服务条款:有些平台明确禁止自动化访问(尤其是社群工具),务必审阅其使用协议。

💡 建议在初学阶段先练习公开网站的爬虫(如 DappRadar 或 CoinGecko 项目页面),再逐步扩展到更复杂的结构或数据提取任务。

3. 大语言模型(LLM)辅助:智能“搜索引擎” + 智能“写作助手”

✅ LLM 在信息收集中的角色

随着大语言模型能力的持续增强,它们已经不仅仅是一个“聊天机器人”,而逐渐演变为新一代智能搜索引擎与内容创作工具的结合体。以 ChatGPT、Claude、Gemini 等为代表的模型,具备极强的信息归纳、文献总结、技术解析能力,尤其适合处理信息繁杂、语言结构复杂的项目资料。

相比传统搜索引擎需要用户“自己判断和筛选”,具备联网能力的大语言模型能先查后答、归纳提炼、结构清晰地呈现答案,极大地提升了信息获取的效率和准确性。

🚀 使用场景示例

  • 作为“智能搜索引擎”:

    • 直接向模型提问:“这个项目最近是否有融资?谁是领投方?”

    • 开启“搜索网页”功能,模型将自动查询官网、RootData、推特等来源并总结答案;

    • 提升查询效率,省去自己手动跳转多个网页的繁琐过程。

  • 作为“写作助手”:

    • 快速归纳多个文档的共同要点(如白皮书、治理提案、生态公告);

    • 提炼出项目代币模型中的风险点设计亮点

    • 生成爬虫脚本、API 查询逻辑、正则表达式等“辅助代码”;

    • 帮助撰写研报中结构性内容(如估值模型框架、商业模式拆解等);

✅ 实践提示:想要让 LLM 更像一个“专业搜索员”,建议在提问时明确说明目标(如“请查阅 Dune、DeFiLlama 和 CoinGecko 的最新数据”),并开启联网搜索功能。这样可以大幅提升答案的准确性和时效性,尤其适合研究“仍在快速发展”的 Web3 项目。

⚠️ 注意 LLM 的“幻觉问题”及其解决方案

尽管大语言模型在信息处理方面表现出色,但它们仍可能出现所谓的“幻觉”现象——即在缺乏事实支撑的情况下生成看似合理但实则虚假的信息,尤其在涉及具体数据、事实陈述或引用内容时更为明显。

在投研场景中,这种幻觉可能带来误导性的结论,进而影响投资判断。因此,对 LLM 的输出结果必须始终保持批判性核查,特别是在以下几类任务中:

  • 解释技术机制(例如 ZK Rollup 的工作原理)时可能编造术语;

  • 提供项目估值或财务指标时可能臆造数据;

  • 总结白皮书内容时可能遗漏关键限定条件或曲解含义。

✅ 减少幻觉的两种有效手段:

  1. 使用“文献上传+精准问答”模式 可通过 PDF 上传与上下文嵌入(如基于 RAG 架构)来“喂给”模型明确的原始材料,使其在生成答案时有据可依,而非“凭空创作”。

  2. 借助“联网搜索”能力进行实时查证(广义 RAG 应用) 越来越多的大语言模型,如 GPT、Claude、Gemini 等,已集成了“搜索网页工具(Web Browsing Tool)”,使模型能够在回答问题前实时查阅互联网内容,而不是完全依赖已有的训练数据。这在 Web3 领域尤为重要,因为很多项目信息(如 TVL、解锁进度、治理提案等)每天都在变化。

    实际上,这类“搜索网页”工具的工作机制,可以看作是一种广义的 RAG 架构(Retrieval-Augmented Generation) 应用。它的核心流程是:

    1. 先检索(Retrieval):通过浏览器工具自动访问目标网页、查找最新资料;

    2. 再生成(Generation):将这些网页内容作为上下文“喂给”模型,生成有依据的回答。

    与本地上传 PDF 等资料的 RAG 相比,联网搜索的优势在于数据是实时的、范围是开放的,特别适合以下典型场景:

    • 提问时模型不确定某个项目的最新进展或链上数据,自动查询官网或第三方平台;

    • 请求对多个媒体来源(如 Medium、Twitter)的分析时,模型会先抓取网页再归纳总结;

    • 查证某篇研究、新闻或社区言论是否真实存在,是否有其他渠道支持或反驳。

    实践提示:提问前可主动开启“搜索网页”功能,并明确指示模型“请查阅最新官网内容”或“请搜索 Dune 图表数据并引用”,这样做往往能显著提高答案的准确性与参考价值,尤其在链上数据实时性要求较高的研究任务中。

🧩 小结建议

  • 生成内容时始终核查关键事实;

  • 合理搭配 LLM 的“生成能力”与“搜索能力”;

  • 对模型引用的外部内容保持出处敏感,避免断章取义或过度依赖。

本课总结

在 Web3 世界中,信息的不对称和过载并存,这对投研提出了更高要求。本节课程围绕“信息收集”这一投研的第一道关口,帮助你从渠道认知、验证原则到技术工具三大维度,逐步搭建起科学、系统的信息获取体系。

我们首先梳理了 Web3 项目的信息来源全景,指出除了项目方的官方口径外,还需重视第三方观点与链上数据的交叉验证;接着提出了“交叉验证、勤勉尽责、合理引用”三大原则,帮助你在信息使用过程中既保持严谨,又不失灵活;最后,通过 API、爬虫与大语言模型三种工具的解析与实操示例,为你开启高效获取结构化信息的大门。

无论是追踪项目动态、研判财务指标,还是解析技术机制,信息搜集能力始终是决定一份研报深度与质量的基石。更重要的是,我们不只是为了“找到数据”,而是为了“理解数据”与“信任数据”

在接下来的课程中,你将以此为基础,深入探索商业模式的结构分析、财务指标的量化解读,以及估值方法的逻辑构建。每一份真正有洞察力的研报,背后都站着一位懂得“如何发现信息”的研究者,而你正在成为这样的人。

课后思考

  1. 信息渠道回顾 请你回忆最近关注的一个Web3项目(可以是你感兴趣的DeFi协议、NFT平台或基础设施项目),尝试列举出你曾接触过的所有信息来源。

    • 这些信息分别属于“项目方官方”、“第三方研究”还是“第三方数据平台”?

    • 哪些来源是你信任的?又有哪些让你有所保留?为什么?

  2. 验证与引用练习 找一条你曾在社交媒体或研报中看到的“数据或观点”,尝试用两种不同的渠道去交叉验证其真实性。

    • 在过程中是否遇到“说法不同”或“口径不一致”的情况?你是如何判断哪一方更可信的?

    • 如果你要在自己的研报中引用这个信息,你会如何标注来源?

  3. 工具使用反思 在你以往的研究过程中,有没有使用过API、爬虫、ChatGPT等技术手段?

    • 哪些工具你最常用?哪些你还不熟悉但愿意尝试?

    • 如果让你用其中一种工具来获取“某项目的解锁进度”或“链上活跃用户”,你会怎么做?写出你的思路或初步操作路径。

  4. 研究者素养 在信息爆炸的时代,如何避免“抄来抄去的研报”成为你内容的主旋律?

    • 你认为“勤勉尽责”与“合理引用”在投研写作中意味着什么?

    • 未来你打算如何在保持原创的同时,正确借鉴他人成果?

内容声明

  1. AI 协助声明 本书部分内容由人工智能工具(如 ChatGPT)协助整理和润色,具体包括:内容草拟、语言优化、结构调整等。所有输出均经作者人工审校,力求表达准确、逻辑清晰。 若您对 AI 参与创作有所顾虑,建议谨慎阅读与参考。

  2. 署名与许可协议 除特别说明外,本书由 Peyton 撰写,隶属于 LYS Lab 研究团队原创发布,收录于项目 Web3-research-handbook(Web3 投研手册)。全文采用 Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International(CC BY-NC-ND 4.0) 协议共享。

    您可以在不修改内容、仅用于非商业用途的前提下自由转载和分享本书,但必须注明原作者与来源严禁擅自改编、删改或用于任何商业用途。作者及 LYS Lab 保留未来以其他方式授权或商用的全部权利。

    推荐署名格式示例:

    本文原载于《Web3-research-handbook(Web3 投研手册)》,由 Peyton 编写,隶属 LYS Lab,遵循 CC BY-NC-ND 4.0 协议发布。协议链接:https://creativecommons.org/licenses/by-nc-nd/4.0/deed.zh
  3. 免责声明 所有内容仅供学习交流使用,不构成任何投资、法律或其他实务建议。如书中引用第三方数据或接口,请以其官方文档为准。

最后更新于