본문으로 건너뛰기

Codebase Inspection

使用 pygount 检查代码库:代码行数、语言、比例。

技能元数据

来源内置(默认安装)
路径skills/github/codebase-inspection
版本1.0.0
作者Hermes Agent
许可证MIT
平台linux, macos, windows
标签LOC, Code Analysis, pygount, Codebase, Metrics, Repository
相关技能github-repo-management

参考:完整 SKILL.md

정보

以下是完整的技能定义,当该技能被触发时 Hermes 会加载它。这就是 Agent 在技能激活时看到的指令。

使用 pygount 进行代码库检查

使用 pygount 分析仓库的代码行数、语言分布、文件数量以及代码与注释的比例。

何时使用

  • 用户询问 LOC(代码行数)统计
  • 用户想要查看仓库的语言分布
  • 用户询问代码库大小或组成
  • 用户想要代码与注释的比例
  • 一般的“这个仓库有多大”类问题

前置条件

pip install --break-system-packages pygount 2>/dev/null || pip install pygount

1. 基础摘要(最常用)

获取完整的语言分布统计,包括文件数量、代码行数和注释行数:

cd /path/to/repo
pygount --format=summary \
--folders-to-skip=".git,node_modules,venv,.venv,__pycache__,.cache,dist,build,.next,.tox,.eggs,*.egg-info" \
.

重要: 务必使用 --folders-to-skip 排除依赖/构建目录,否则 pygount 会遍历它们,导致耗时很长甚至卡死。

2. 常见文件夹排除项

根据项目类型进行调整:

# Python 项目
--folders-to-skip=".git,venv,.venv,__pycache__,.cache,dist,build,.tox,.eggs,.mypy_cache"

# JavaScript/TypeScript 项目
--folders-to-skip=".git,node_modules,dist,build,.next,.cache,.turbo,coverage"

# 通用兜底
--folders-to-skip=".git,node_modules,venv,.venv,__pycache__,.cache,dist,build,.next,.tox,vendor,third_party"

3. 按特定语言过滤

# 仅统计 Python 文件
pygount --suffix=py --format=summary .

# 仅统计 Python 和 YAML 文件
pygount --suffix=py,yaml,yml --format=summary .

4. 逐文件详细输出

# 默认格式显示每个文件的明细
pygount --folders-to-skip=".git,node_modules,venv" .

# 按代码行数排序(通过管道传给 sort)
pygount --folders-to-skip=".git,node_modules,venv" . | sort -t$'\t' -k1 -nr | head -20

5. 输出格式

# 摘要表(默认推荐)
pygount --format=summary .

# JSON 输出(适合程序化使用)
pygount --format=json .

# 管道友好输出:语言、文件数、代码、文档、空白、字符串
pygount --format=summary . 2>/dev/null

6. 结果解读

摘要表的列含义:

  • Language — 检测到的编程语言
  • Files — 该语言的文件数量
  • Code — 实际代码行数(可执行/声明性代码)
  • Comment — 注释或文档行数
  • % — 占总量的百分比 特殊的伪语言:
  • __empty__ — 空文件
  • __binary__ — 二进制文件(图片、编译文件等)
  • __generated__ — 自动生成的文件(通过启发式检测)
  • __duplicate__ — 内容完全相同的文件
  • __unknown__ — 无法识别的文件类型

注意事项

  1. 始终排除 .git、node_modules、venv — 如果不使用 --folders-to-skip,pygount 会遍历所有内容,可能在大型依赖树上花费数分钟甚至卡住。
  2. Markdown 显示 0 行代码 — pygount 会将所有 Markdown 内容归类为注释而非代码。这是预期行为。
  3. JSON 文件代码行数显示偏低 — pygount 对 JSON 行的统计可能较为保守。如需准确的 JSON 行数,请直接使用 wc -l
  4. 大型单仓库 — 对于非常大的仓库,建议使用 --suffix 只针对特定语言,而不是扫描所有内容。