3.项目信息收集

📢 投研手册共建招募中 我们正在组团打造一份超实用、还不无聊的研究手册📘
📩 发邮件到：zey9991@gmail.com 邮件标题写：【投研手册协作申请】+ 你的名字
✍️ 内容包括：想参与的方向、过往经验和每周可投入时间
🧠 你会收获什么？新朋友、写作技巧、项目视角、署名机会，还有可能是下一段旅程的开始！

在 Web3 投研中，信息收集犹如打地基——没有扎实、全面的资料，就难以在后续的商业模式、财务分析和估值环节得出可靠结论。与传统行业相比，区块链项目的信息源更分散、更新更迅速，既有链上数据，也有社群舆情；既有项目方官方口径，也有第三方研究角度。本课将带你逐层拆解这些信息渠道，梳理从“来源甄别”到“技术获取”的全流程，并强调交叉验证与合规引用的原则，帮助你构建既灵活又严谨的研究框架。

Web3 项目信息来源全景

按信息主体可大致分为三类：

项目方官方渠道
第三方研究与观点
第三方数据平台

项目方官方渠道

官方渠道是了解项目愿景、进度与团队思路的“主场”，但由于宣传属性，往往只呈现“最好的一面”。在使用时，你需要多维入口并行。

官网前端：除首页横幅的合作伙伴 logo，可重点浏览“Roadmap”、“Changelog”或“News”栏目，快速定位新版本发布、重大功能上线等关键事件。
官方文档：白皮书与技术文档是解锁项目运行逻辑的宝典。阅读时可先通览总纲，随后针对技术架构、共识机制、代币经济、合约接口等重点章节做标注。
官方新闻渠道：Medium、自建blog等，往往会配套长篇背景故事或访谈，弥补白皮书中“干货偏少”的不足。
社交媒体：以 X（前 Twitter）为主。团队或核心成员的个人账号常会提前抛出“AMA 预告”等等，关注这些账号能让你率先获悉一手动态。
社区社群：Telegram/Discord 群组是检查用户真实反馈与治理活跃度的重要窗口。可留意讨论热度、提问方向，以及管理员或开发者的响应频率。

第三方研究观点

市场上大大小小的研究机构和独立分析师常常发布研报或深度文章，提供了不同角度的独立视野。

机构示例：
- Messari Protocol Reporting
- Mint Ventures
- Alea Research
- Bankless
- Delphi Digital
价值与风险：他们的观点能帮助你快速建立行业认知，但也有立场偏向。阅读时应关注研究者对方法论的说明，并与其他报告进行对比。

第三方数据平台

相比主观研报，专业数据平台侧重以链上/链下指标为核心，提供更具客观性的数值支持。根据数据类型，可分为：

链上运营数据
- 区块链浏览器（Etherscan、Arbiscan）：原生交易、合约调用、钱包分布等。
- Dune Analytics：开源 SQL 仪表盘，可快速查询和可视化链上指标。
- DeFilama、DappRadar、L2BEAT：分别聚焦 DeFi 项目、dApp 活跃度和 Layer2 生态评分。
- DexScreener、Token Terminal、Artemis Terminal：涵盖交易行情、财务指标、开发者活动等。
团队与融资信息
- RootData、ICO Analytics：披露项目融资轮次、投资方及 ICO 回报情况。
- LinkedIn：项目核心成员教育与从业背景。
社群与情绪数据
- RootData、TrendX：推特关注量、项目热度排行、关键舆情事件。
代币经济与价格数据
- Tokenomist、CryptoRank、DropsTab：代币分配、解锁节奏、重大解锁事件。
- CoinMarketCap、CoinGecko、TradingView：多链市场价格和成交量。

信息搜集的推荐原则

在Web3项目投研中，收集到的信息质与量同等重要，但更关键的是如何甄别、核实与规范使用它们。本节将对“交叉验证”、“勤勉尽责”与“合理引用”三大原则做深入阐释，并为每项原则提供实践要点与示例。

交叉验证（Cross‑Check）

核心思想是永远不要只依赖一个信息源，通过多路比对，减少偏差与遗漏。

多维度比对

官方 vs. 链上数据
- 如项目方宣称「月活跃地址数突破10万」，应在Etherscan或Dune上验证真实地址增长曲线。
官方 vs. 第三方
- 当官方公布大额融资消息，可在RootData、ICO Analytics或公告截图中再次确认资金到帐记录与投资方名单。

区分一手与二手资料

一手资料：白皮书原文、官方技术文档、链上事件日志。最贴近项目真实意图与技术实现。
二手资料：他人解读或摘录，如博客文章、研究报告摘要。具有参考价值，但易带入作者偏见。

勤勉尽责（Due Diligence）

核心思想是可以引用第三方报告，但必须经过自己审慎研究，确保内容靠谱

亲阅原始报告

不要仅看摘要与结论，至少快速浏览报告的“方法论”“假设”与“数据来源”章节。
留意报告发布时间，避免使用已被市场变化“淘汰”的旧数据。

关键数据再核实

对于重要数据点（如TVL、代币发行量、链上活跃度），在多个数据平台（Dune、DeFilama、Token Terminal）交叉检查。
若发现数据差异，追踪各平台的统计口径（例如“TVL 是否计入借贷利息”）。

怀疑常态化

比如，面对“天使轮仅抵押0.1 ETH挖到10万枚代币”之类听起来“过于美好”的案例，要反问：
- 该项目的智能合约地址是否可查？
- 代币是否真实可转移或存在销毁机制？

合理引用（Proper Attribution）

核心思想是尊重知识产权与学术规范，让研报既有深度，也充满诚信。

使用他人文章、观点、材料、图表等，明确标注出处，避免学术或商业剽窃；
若借鉴他人模型或思路，需在报告中附录模型原始出处及适用前提。
描述一些共识性的内容
- 如果用自己的语言进行描述（eg.大白话讲解“标准差”的定义）完全可以
- 如果直接从他人材料中摘抄（eg.出版物中直接复制“标准差”的定义）而未加引用则可能被视为“不当引用”
- 对于公开的政府或行业数据（如统计局、央行报告），可直接使用并注明来源
  - 若是盈利机构发布的某些指数，使用时必须引用

效率倍增的技术工具

随着 Web3 项目生态的日益复杂，仅依赖人工“手动查找+截图保存”的方式已难以满足系统化投研的效率要求。尤其是在需要频繁跟踪链上指标、抓取动态数据或筛选大量项目信息的场景下，熟练运用自动化工具不仅能大幅提升工作效率，也能降低主观误判的风险。

本节将系统介绍三种核心技术工具：API 调用、网页爬虫与大语言模型（LLM）辅助，并配合实际案例，帮助你在数据获取过程中既高效又合规。

1. API 调用：结构化与实时数据的首选方式

✅ 什么是 API？

API（Application Programming Interface）是指“应用程序接口”，通俗理解就是数据服务商为你开放的一扇窗口，你可以通过它向特定平台“提问”，并获得结构化的“回答”。

在Web3领域，越来越多项目与平台开放了自己的API接口，如链上数据服务商（Etherscan、The Graph）、行情平台（CoinGecko、CoinMarketCap）、数据分析平台（Token Terminal、DefiLlama）等。

🚀 应用场景

自动抓取某项目代币的实时价格、交易量等；
获取某地址或合约的历史交易记录；
定时更新某类协议（如Lending协议）的TVL变动；
批量分析多个项目的财务指标或用户增长曲线。

🛠️ 实操路径

注册账号并获取 API Key（有些无需授权即可调用）
仔细阅读接口文档，理解参数含义、请求方式（GET/POST）及返回格式（通常是 JSON）
使用脚本或代码调用接口（Python推荐使用 requests 或 httpx 库）
将返回数据进行解析（如提取为表格、接入数据库或可视化工具）

2. 网页爬虫（Web Scraping）：非结构化数据的强力补充

✅ 本质解释

网页爬虫是一种程序化手段，用来模拟人类浏览网页的行为，自动抓取网页上的信息——尤其是当目标平台没有API接口或信息更新频繁但结构混乱时，爬虫是必不可少的辅助工具。

🚀 使用场景

抓取某项目官网公告页上的版本更新日志；
扫描 Telegram、Discord 社群页面的用户发言数量、关键讨论话题；
定向监测官网路线图页面是否发布了新内容；
下载白皮书、治理提案等文档列表并提取发布时间。

🛠️ 工具推荐

Python 库如 requests, BeautifulSoup, lxml, selenium；
对于动态加载页面推荐使用浏览器模拟工具（如 Playwright, Selenium）抓取完整HTML；
可配合定时任务（cron job）或 notebook 做周期性抓取与差分监测。

⚠️ 合规风险与使用边界

遵守 robots.txt 协议：该文件告知爬虫哪些页面可以或不可以抓取；
避免高频爬取行为：应设置合理的访问间隔（sleep），以防对目标网站造成压力；
尊重平台服务条款：有些平台明确禁止自动化访问（尤其是社群工具），务必审阅其使用协议。

💡 建议在初学阶段先练习公开网站的爬虫（如 DappRadar 或 CoinGecko 项目页面），再逐步扩展到更复杂的结构或数据提取任务。

3. 大语言模型（LLM）辅助：智能“搜索引擎” + 智能“写作助手”

✅ LLM 在信息收集中的角色

随着大语言模型能力的持续增强，它们已经不仅仅是一个“聊天机器人”，而逐渐演变为新一代智能搜索引擎与内容创作工具的结合体。以 ChatGPT、Claude、Gemini 等为代表的模型，具备极强的信息归纳、文献总结、技术解析能力，尤其适合处理信息繁杂、语言结构复杂的项目资料。

相比传统搜索引擎需要用户“自己判断和筛选”，具备联网能力的大语言模型能先查后答、归纳提炼、结构清晰地呈现答案，极大地提升了信息获取的效率和准确性。

🚀 使用场景示例

作为“智能搜索引擎”：
- 直接向模型提问：“这个项目最近是否有融资？谁是领投方？”
- 开启“搜索网页”功能，模型将自动查询官网、RootData、推特等来源并总结答案；
- 提升查询效率，省去自己手动跳转多个网页的繁琐过程。
作为“写作助手”：
- 快速归纳多个文档的共同要点（如白皮书、治理提案、生态公告）；
- 提炼出项目代币模型中的风险点或设计亮点；
- 生成爬虫脚本、API 查询逻辑、正则表达式等“辅助代码”；
- 帮助撰写研报中结构性内容（如估值模型框架、商业模式拆解等）；

✅ 实践提示：想要让 LLM 更像一个“专业搜索员”，建议在提问时明确说明目标（如“请查阅 Dune、DeFiLlama 和 CoinGecko 的最新数据”），并开启联网搜索功能。这样可以大幅提升答案的准确性和时效性，尤其适合研究“仍在快速发展”的 Web3 项目。

⚠️ 注意 LLM 的“幻觉问题”及其解决方案

尽管大语言模型在信息处理方面表现出色，但它们仍可能出现所谓的“幻觉”现象——即在缺乏事实支撑的情况下生成看似合理但实则虚假的信息，尤其在涉及具体数据、事实陈述或引用内容时更为明显。

在投研场景中，这种幻觉可能带来误导性的结论，进而影响投资判断。因此，对 LLM 的输出结果必须始终保持批判性核查，特别是在以下几类任务中：

解释技术机制（例如 ZK Rollup 的工作原理）时可能编造术语；
提供项目估值或财务指标时可能臆造数据；
总结白皮书内容时可能遗漏关键限定条件或曲解含义。

✅ 减少幻觉的两种有效手段：

使用“文献上传+精准问答”模式 可通过 PDF 上传与上下文嵌入（如基于 RAG 架构）来“喂给”模型明确的原始材料，使其在生成答案时有据可依，而非“凭空创作”。
借助“联网搜索”能力进行实时查证（广义 RAG 应用） 越来越多的大语言模型，如 GPT、Claude、Gemini 等，已集成了“搜索网页工具（Web Browsing Tool）”，使模型能够在回答问题前实时查阅互联网内容，而不是完全依赖已有的训练数据。这在 Web3 领域尤为重要，因为很多项目信息（如 TVL、解锁进度、治理提案等）每天都在变化。
实际上，这类“搜索网页”工具的工作机制，可以看作是一种广义的 RAG 架构（Retrieval-Augmented Generation） 应用。它的核心流程是：
1. 先检索（Retrieval）：通过浏览器工具自动访问目标网页、查找最新资料；
2. 再生成（Generation）：将这些网页内容作为上下文“喂给”模型，生成有依据的回答。
与本地上传 PDF 等资料的 RAG 相比，联网搜索的优势在于数据是实时的、范围是开放的，特别适合以下典型场景：
- 提问时模型不确定某个项目的最新进展或链上数据，自动查询官网或第三方平台；
- 请求对多个媒体来源（如 Medium、Twitter）的分析时，模型会先抓取网页再归纳总结；
- 查证某篇研究、新闻或社区言论是否真实存在，是否有其他渠道支持或反驳。
✅ 实践提示：提问前可主动开启“搜索网页”功能，并明确指示模型“请查阅最新官网内容”或“请搜索 Dune 图表数据并引用”，这样做往往能显著提高答案的准确性与参考价值，尤其在链上数据实时性要求较高的研究任务中。

🧩 小结建议

生成内容时始终核查关键事实；
合理搭配 LLM 的“生成能力”与“搜索能力”；
对模型引用的外部内容保持出处敏感，避免断章取义或过度依赖。

本课总结

在 Web3 世界中，信息的不对称和过载并存，这对投研提出了更高要求。本节课程围绕“信息收集”这一投研的第一道关口，帮助你从渠道认知、验证原则到技术工具三大维度，逐步搭建起科学、系统的信息获取体系。

我们首先梳理了 Web3 项目的信息来源全景，指出除了项目方的官方口径外，还需重视第三方观点与链上数据的交叉验证；接着提出了“交叉验证、勤勉尽责、合理引用”三大原则，帮助你在信息使用过程中既保持严谨，又不失灵活；最后，通过 API、爬虫与大语言模型三种工具的解析与实操示例，为你开启高效获取结构化信息的大门。

无论是追踪项目动态、研判财务指标，还是解析技术机制，信息搜集能力始终是决定一份研报深度与质量的基石。更重要的是，我们不只是为了“找到数据”，而是为了“理解数据”与“信任数据”。

在接下来的课程中，你将以此为基础，深入探索商业模式的结构分析、财务指标的量化解读，以及估值方法的逻辑构建。每一份真正有洞察力的研报，背后都站着一位懂得“如何发现信息”的研究者，而你正在成为这样的人。

课后思考

信息渠道回顾 请你回忆最近关注的一个Web3项目（可以是你感兴趣的DeFi协议、NFT平台或基础设施项目），尝试列举出你曾接触过的所有信息来源。
- 这些信息分别属于“项目方官方”、“第三方研究”还是“第三方数据平台”？
- 哪些来源是你信任的？又有哪些让你有所保留？为什么？
验证与引用练习 找一条你曾在社交媒体或研报中看到的“数据或观点”，尝试用两种不同的渠道去交叉验证其真实性。
- 在过程中是否遇到“说法不同”或“口径不一致”的情况？你是如何判断哪一方更可信的？
- 如果你要在自己的研报中引用这个信息，你会如何标注来源？
工具使用反思 在你以往的研究过程中，有没有使用过API、爬虫、ChatGPT等技术手段？
- 哪些工具你最常用？哪些你还不熟悉但愿意尝试？
- 如果让你用其中一种工具来获取“某项目的解锁进度”或“链上活跃用户”，你会怎么做？写出你的思路或初步操作路径。
研究者素养 在信息爆炸的时代，如何避免“抄来抄去的研报”成为你内容的主旋律？
- 你认为“勤勉尽责”与“合理引用”在投研写作中意味着什么？
- 未来你打算如何在保持原创的同时，正确借鉴他人成果？

内容声明

AI 协助声明 本书部分内容由人工智能工具（如 ChatGPT）协助整理和润色，具体包括：内容草拟、语言优化、结构调整等。所有输出均经作者人工审校，力求表达准确、逻辑清晰。若您对 AI 参与创作有所顾虑，建议谨慎阅读与参考。
署名与许可协议 除特别说明外，本书由 Peyton 撰写，隶属于 LYS Lab 研究团队原创发布，收录于项目 Web3-research-handbook（Web3 投研手册）。全文采用 Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International（CC BY-NC-ND 4.0） 协议共享。
您可以在不修改内容、仅用于非商业用途的前提下自由转载和分享本书，但必须注明原作者与来源。 严禁擅自改编、删改或用于任何商业用途。作者及 LYS Lab 保留未来以其他方式授权或商用的全部权利。
推荐署名格式示例：
```
本文原载于《Web3-research-handbook（Web3 投研手册）》，由 Peyton 编写，隶属 LYS Lab，遵循 CC BY-NC-ND 4.0 协议发布。协议链接：https://creativecommons.org/licenses/by-nc-nd/4.0/deed.zh
```
免责声明 所有内容仅供学习交流使用，不构成任何投资、法律或其他实务建议。如书中引用第三方数据或接口，请以其官方文档为准。

上一页2.项目研报框架下一页3.1 API调用案例实操

最后更新于3天前

Web3 项目信息来源全景