Arxiv
按关键词、作者、类别或 ID 搜索 arXiv 论文。
技能元数据
| Source | 内置(默认安装) |
| Path | skills/research/arxiv |
| Version | 1.0.0 |
| Author | Hermes Agent |
| License | MIT |
| Platforms | linux, macos, windows |
| Tags | Research, Arxiv, Papers, Academic, Science, API |
| Related skills | ocr-and-documents |
参考:完整的 SKILL.md
info
以下内容是当此技能触发时 Hermes 加载的完整技能定义。这是技能激活时 Agent 看到的指令。
arXiv Research
通过 arXiv 的免费 REST API 搜索并获取学术论文。不需要 API 密钥,不需要额外依赖——只需 curl。
快速参考
| 操作 | 命令 |
|---|---|
| 搜索论文 | curl "https://export.arxiv.org/api/query?search_query=all:QUERY&max_results=5" |
| 获取特定论文 | curl "https://export.arxiv.org/api/query?id_list=2402.03300" |
| 阅读摘要(网页) | web_extract(urls=["https://arxiv.org/abs/2402.03300"]) |
| 阅读全文(PDF) | web_extract(urls=["https://arxiv.org/pdf/2402.03300"]) |
搜索论文
API 返回 Atom XML 格式。可以用 grep/sed 解析,或通过 python3 管道处理以得到清晰输出。
基本搜索
curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5"
清理输出(将 XML 解析为可读格式)
curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5&sortBy=submittedDate&sortOrder=descending" | python3 -c "
import sys, xml.etree.ElementTree as ET
ns = {'a': 'http://www.w3.org/2005/Atom'}
root = ET.parse(sys.stdin).getroot()
for i, entry in enumerate(root.findall('a:entry', ns)):
title = entry.find('a:title', ns).text.strip().replace('\n', ' ')
arxiv_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1]
published = entry.find('a:published', ns).text[:10]
authors = ', '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns))
summary = entry.find('a:summary', ns).text.strip()[:200]
cats = ', '.join(c.get('term') for c in entry.findall('a:category', ns))
print(f'{i+1}. [{arxiv_id}] {title}')
print(f' Authors: {authors}')
print(f' Published: {published} | Categories: {cats}')
print(f' Abstract: {summary}...')
print(f' PDF: https://arxiv.org/pdf/{arxiv_id}')
print()
"
搜索查询语法
| 前缀 | 搜索字段 | 示例 |
|---|---|---|
all: | 所有字段 | all:transformer+attention |
ti: | 标题 | ti:large+language+models |
au: | 作者 | au:vaswani |
abs: | 摘要 | abs:reinforcement+learning |
cat: | 类别 | cat:cs.AI |
co: | 评论 | co:accepted+NeurIPS |
布尔运算符
# AND(使用 + 时默认)
search_query=all:transformer+attention
# OR
search_query=all:GPT+OR+all:BERT
# AND NOT
search_query=all:language+model+ANDNOT+all:vision
# 精确短语
search_query=ti:"chain+of+thought"
# 组合
search_query=au:hinton+AND+cat:cs.LG
排序与分页
| 参数 | 选项 |
|---|---|
sortBy | relevance(相关性)、lastUpdatedDate(最后更新日期)、submittedDate(提交日期) |
sortOrder | ascending(升序)、descending(降序) |
start | 结果偏移量(从 0 开始) |
max_results | 结果数量(默认 10,最大 30000) |
# cs.AI 类别中最新 10 篇论文
curl -s "https://export.arxiv.org/api/query?search_query=cat:cs.AI&sortBy=submittedDate&sortOrder=descending&max_results=10"
获取特定论文
# 按 arXiv ID 获取
curl -s "https://export.arxiv.org/api/query?id_list=2402.03300"
# 多篇论文
curl -s "https://export.arxiv.org/api/query?id_list=2402.03300,2401.12345,2403.00001"
生成 BibTeX
获取论文元数据后,生成 BibTeX 条目:
{% raw %}
curl -s "https://export.arxiv.org/api/query?id_list=1706.03762" | python3 -c "
import sys, xml.etree.ElementTree as ET
ns = {'a': 'http://www.w3.org/2005/Atom', 'arxiv': 'http://arxiv.org/schemas/atom'}
root = ET.parse(sys.stdin).getroot()
entry = root.find('a:entry', ns)
if entry is None: sys.exit('Paper not found')
title = entry.find('a:title', ns).text.strip().replace('\n', ' ')
authors = ' and '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns))
year = entry.find('a:published', ns).text[:4]
raw_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1]
cat = entry.find('arxiv:primary_category', ns)
primary = cat.get('term') if cat is not None else 'cs.LG'
last_name = entry.find('a:author', ns).find('a:name', ns).text.split()[-1]
print(f'@article{{{last_name}{year}_{raw_id.replace(\".\", \"\")},')
print(f' title = {{{title}}},')
print(f' author = {{{authors}}},')
print(f' year = {{{year}}},')
print(f' eprint = {{{raw_id}}},')
print(f' archivePrefix = {{arXiv}},')
print(f' primaryClass = {{{primary}}},')
print(f' url = {{https://arxiv.org/abs/{raw_id}}}')
print('}')
"
{% endraw %}
阅读论文内容
找到论文后,阅读它:
# 摘要页面(快速,包含元数据和摘要)
web_extract(urls=["https://arxiv.org/abs/2402.03300"])
# 完整论文(PDF → 通过 Firecrawl 转换为 Markdown)
web_extract(urls=["https://arxiv.org/pdf/2402.03300"])
如需处理本地 PDF,请参考 ocr-and-documents 技能。
常见类别
| 类别 | 领域 |
|---|---|
cs.AI | 人工智能 |
cs.CL | 计算与语言(自然语言处理) |
cs.CV | 计算机视觉 |
cs.LG | 机器学习 |
cs.CR | 密码学与安全 |
stat.ML | 机器学习(统计学) |
math.OC | 优化与控制 |
physics.comp-ph | 计算物理 |
完整列表:https://arxiv.org/category_taxonomy
辅助脚本
scripts/search_arxiv.py 脚本负责 XML 解析并提供清晰的输出:
python scripts/search_arxiv.py "GRPO reinforcement learning"
python scripts/search_arxiv.py "transformer attention" --max 10 --sort date
python scripts/search_arxiv.py --author "Yann LeCun" --max 5
python scripts/search_arxiv.py --category cs.AI --sort date
python scripts/search_arxiv.py --id 2402.03300
python scripts/search_arxiv.py --id 2402.03300,2401.12345
无需额外依赖——仅使用 Python 标准库。
Semantic Scholar(引文、相关论文、作者简介)
arXiv 不提供引文数据或推荐功能。请使用 Semantic Scholar API 来获取这些数据——免费,基础使用无需 API 密钥(每秒 1 次请求),返回 JSON 格式。
获取论文详情 + 引文
# 通过 arXiv ID
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300?fields=title,authors,citationCount,referenceCount,influentialCitationCount,year,abstract" | python3 -m json.tool
# 通过 Semantic Scholar 论文 ID 或 DOI
curl -s "https://api.semanticscholar.org/graph/v1/paper/DOI:10.1234/example?fields=title,citationCount"
获取某篇论文的引文列表(谁引用了它)
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/citations?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool
获取某篇论文的参考文献列表(它引用了哪些)
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/references?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool
搜索论文(arXiv 搜索的替代方案,返回 JSON)
curl -s "https://api.semanticscholar.org/graph/v1/paper/search?query=GRPO+reinforcement+learning&limit=5&fields=title,authors,year,citationCount,externalIds" | python3 -m json.tool
获取论文推荐
curl -s -X POST "https://api.semanticscholar.org/recommendations/v1/papers/" \
-H "Content-Type: application/json" \
-d '{"positivePaperIds": ["arXiv:2402.03300"], "negativePaperIds": []}' | python3 -m json.tool
作者简介
curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=Yann+LeCun&fields=name,hIndex,citationCount,paperCount" | python3 -m json.tool
常用 Semantic Scholar 字段
title、authors、year、abstract、citationCount、referenceCount、influentialCitationCount、isOpenAccess、openAccessPdf、fieldsOfStudy、publicationVenue、externalIds(包含 arXiv ID、DOI 等)
完整研究工作流程
- 发现:
python scripts/search_arxiv.py "你的主题" --sort date --max 10 - 评估影响力:
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID?fields=citationCount,influentialCitationCount" - 阅读摘要:
web_extract(urls=["https://arxiv.org/abs/ID"]) - 阅读全文:
web_extract(urls=["https://arxiv.org/pdf/ID"]) - 寻找相关工作:
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID/references?fields=title,citationCount&limit=20" - 获取推荐:向 Semantic Scholar 推荐端点发送 POST 请求
- 追踪作者:
curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=NAME"
速率限制
| API | 速率 | 认证 |
|---|---|---|
| arXiv | 约 1 次请求 / 3 秒 | 无需 |
| Semantic Scholar | 1 次请求 / 秒 | 无需(带 API 密钥可提升至 100 次/秒) |
注意事项
- arXiv 返回 Atom XML 格式数据 —— 使用辅助脚本或解析代码片段获得整洁输出
- Semantic Scholar 返回 JSON 格式 —— 可通过
python3 -m json.tool管道输出以提高可读性 - arXiv ID 格式:旧格式(
hep-th/0601001)与新格式(2402.03300) - PDF 链接:
https://arxiv.org/pdf/{id}— 摘要链接:https://arxiv.org/abs/{id} - HTML 版本(若有):
https://arxiv.org/html/{id} - 如需本地处理 PDF,请参阅
ocr-and-documents技能
ID 版本管理
arxiv.org/abs/1706.03762始终解析到最新版本arxiv.org/abs/1706.03762v1指向特定的不可变版本- 生成引用时,请保留您实际阅读的版本后缀,以防止引用漂移(后续版本可能大幅修改内容)
- API 返回的
<id>字段为带版本的 URL(例如http://arxiv.org/abs/1706.03762v7)
已撤稿论文
论文在提交后可能被撤稿。出现这种情况时:
<summary>字段会包含撤稿通知(查找 "withdrawn" 或 "retracted")- 元数据字段可能不完整
- 在将结果视为有效论文前,务必检查摘要内容