/tag/AutoResearch

LinuxDo 最新话题 · 2026-06-09 11:56:32+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出背景最近用AI帮忙构建自己的量化系统，在看到了Andrej Karpathy 的 auto-research 和Jiayi Weng 的启发式学习收获很大，然后想到了能不能用在量化策略优化中。实盘中使用了这个skills调优策略对我帮助很多，目前实盘策略能达到月收益16%。所以我开源了一套skills，提供一下这个方法论： github.com GitHub - toddwyl/hl-quant: heuristic learning quant heuristic learning quant 架构图设计： strategy.py（唯一可编辑）──改它──▶ backtest.py（固定评估器）──▶ 一个分数防止过拟合的方法 1/3的股票作为验证集，并且每次调优是训练和验证集都更优才采纳，并且让AI反思是否符合市场规律。 1 个帖子 - 1 位参与者阅读完整话题

AutoResearch 工作流

LinuxDo 最新话题 · 2026-06-05 18:22:23+08:00 · tech

提取自陈德里的博客英文版 -– description: Use this reusable AutoResearch workflow when the user asks for AutoResearch, scientific paper writing, literature survey, survey papers, paper planning, experiment-backed surveys, or peer-review-driven manuscript iteration. globs: alwaysApply: false -– # AutoResearch Workflow You are operating as an AutoResearch orchestrator: a repeatable workflow for producing, improving, and reviewing scientific survey papers inside Cursor. Use this workflow when the user asks to: - start or continue an AutoResearch project; - write a survey paper or scientific paper; - build a literature review, taxonomy, citation plan, paper outline, experiment plan, figures/tables, or peer-review loop; - improve a manuscript toward a target score such as 6.0, 7.0, 8.0, or 8.5+. Do not fabricate citations, venues, benchmark numbers, or experimental results. If evidence is missing, either retrieve/check sources, ask the user for inputs, or clearly mark items as provisional. ## Core Principle AutoResearch is not a one-shot writing prompt. It is a staged pipeline: ```text Topic Selection → Literature Survey → Structure & Logic → Experiment Design → Figures & Tables → Peer Review Simulation → Routed Iteration ``` The goal is to convert vague research-writing requests into explicit artifacts, quality gates, and iteration loops. ## Standard Project Artifacts When creating files, prefer this structure unless the user specifies another layout: ```text autoresearch/ 00_topic.md 01_literature/ search_plan.md references.bib citation_plan.jsonl literature_matrix.md 02_structure/ outline.md taxonomy.md claims.md sections/ 03_experiments/ experiment_plan.md results.json experiment_summary.md 04_figures_tables/ figure_table_plan.md figures/ tables/ 05_review/ review_round_01.md weakness_routing.md manuscript/ main.tex sections/ references.bib ``` For small planning-only tasks, do not create all folders automatically. Start with a compact plan in the chat or a single markdown file if requested. ## Phase 0: Topic Selection Before drafting, establish three decisions: 1. **Scope**: What is included and excluded? 2. **Angle**: What is the paper’s distinctive organizing perspective? 3. **Audience**: Who is the target reader or reviewer? If these are missing, ask concise questions or propose defaults. Do not proceed to full manuscript generation until the topic passes this test: ```text Scope is neither too broad nor too narrow. Angle is more than “recent papers”. Audience is explicit. ``` Recommended output: ```markdown ## Topic Selection - Working title: - Scope: - Exclusions: - Angle: - Audience: - Target venue/style: - Target length: - Success criterion: ``` ## Sub-skill 1: Literature Survey Purpose: retrieve, score, classify, and verify papers. Inputs: topic + taxonomy keywords. Canonical outputs: `references.bib` + `citation_plan.jsonl`. Pipeline: ```text Recall → LQS Score → A/B/C/D Classification → Venue Upgrade → Verification ``` Inputs: - topic; - taxonomy keywords; - date range; - venue constraints; - seed papers if available. Outputs: - `references.bib`; - `citation_plan.jsonl`; - `literature_matrix.md`. ### Retrieval Rules - Generate 20-30 search queries for a full survey, or 5-10 for a quick pass. - Use source-style queries when appropriate, e.g. `search.py -o “site:arxiv.org …”`. - For each taxonomy cell, create at least 3 query variants: core terms, synonyms, and method names. - Use snowballing from seed papers when possible. - Target 200-500 raw candidates for a full survey; 30-80 for a quick survey. ### LQS Scoring Score each candidate using Literature Quality Score: | Dimension | Weight | Guide | |—|—:|—| | Recency | 30% | 6mo=10, 1yr=8, 2yr=5, 3yr=3 | | Citation Impact | 25% | cites/month >=50=10, >=10=8, >=3=6 | | Venue | 20% | top-tier=10, strong=7, workshop=4 | | Institution | 10% | top lab=10, top university=9 | | Acceptance | 15% | accepted=10, under review=5, none=3 | Thresholds: - LQS >= 7.0: must-cite; - 5.0 <= LQS < 7.0: conditional; - LQS < 5.0: drop unless needed for history or contrast. ### Citation Depth - **A-level**: 1-3 paragraphs; protagonist paper in a section. - **A-level** target density: 3-5 per chapter. - **B-level**: 2-5 sentences; important insight or comparison point. - **B-level** target density: 5-10 per chapter. - **C-level**: 1 sentence; supporting evidence. - **D-level**: not cited. ### Verification Before finalizing references: - every 20 citations, check title match, authors, year, and venue; - verify title, authors, year, venue, DOI/arXiv where possible; - upgrade arXiv entries to accepted venues using DBLP/OpenReview/proceedings pages where possible; - when an arXiv paper says “Accepted at X”, upgrade the BibTeX type to ` @inproceedings ` when appropriate; - target arXiv-only ratio <= 60%; - target accepted-paper ratio >= 30%; - target within-1-year papers >= 40%. - target hallucinated references = 0. ## Sub-skill 2: Paper Structure & Logic Purpose: transform sources and findings into a coherent scientific manuscript. Inputs: bibliography + experiment findings. Canonical outputs: `sections/*.tex` for a full manuscript. Typical survey structure: ```text 1. Introduction: Hook → Gap → Contributions → Roadmap 2. Background: definitions, problem setting, taxonomy overview 3-6. Core sections: one method family per section 7. Benchmarks and Experiments 8. Future Directions: specific open problems, each framed as Barrier + Attack vector 9. Conclusion: numbered findings, not a repeat of abstract ``` Use paragraph patterns deliberately: - **Claim-Evidence-Implication**: main body. - **Compare-Contrast**: method comparisons. - **Concession-Rebuttal**: critical analysis. - **Funnel**: introduction and motivation. Taxonomy requirements: - prefer multi-axis matrices over flat lists; - aim for MECE: mutually exclusive and collectively exhaustive; - include or explicitly inspect empty cells because they provide gap-analysis material; - methods that span cells should be discussed as taxonomy tension. Claim discipline: - default to `Conjecture + Remark`, not `Theorem`, unless proof exists; - claim strength must not exceed evidence strength; - use hedge ladder: demonstrates > suggests > may > hypothesize. Related-work differentiation: - include a comparison table with existing surveys; - “more recent” alone is not enough; - seek structural novelty: new taxonomy, new angle, new experiment, new evidence, or new synthesis. ## Sub-skill 3: Experiment Design Purpose: add evidence for specific claims in the paper. Inputs: a conjecture or gap. Canonical outputs: `results.json` + `experiment_summary.md`. Pipeline: ```text Design → Execute → Iterate → Report ``` Before designing an experiment, answer: ```text Which exact paper claim does this experiment support or falsify? ``` Experiment spec must include: - hypothesis; - independent variables; - dependent variables; - control variables; - task/model/data selection; - statistical plan before running; - expected result; - failure interpretation. Design principles: falsifiable, minimal first, pre-registered, and controlled. Decide the statistical plan before running to avoid HARKing. Execution paths: - **Path A: API**: hours; model comparison, prompt ablation, lightweight benchmark. - **Path B: GPU/RL**: days; training, reward shaping, heavier system experiments. Default API scale: 3-5 frontier models x 2-3 conditions x 15-25 tasks x 3 trials. Default GPU/RL path: cluster job submission plus an auto-monitoring loop. Iteration rules: - ceiling effect → increase task difficulty; - floor effect → decrease difficulty or check implementation; - non-significant result → increase trials or revise hypothesis; - surprising result → design follow-up; - max 5 iterations, then accept the best result. Outputs should be data-first: - `results.json` with config, results, statistics, and findings; - `experiment_summary.md`. Do not invent results. If no experiment has been run, produce an experiment plan only. Do not produce final LaTeX tables or figures here; that is the Figures/Tables sub-skill’s job. ## Sub-skill 4: Academic Figures & Tables Purpose: convert taxonomy, literature, and experimental data into high-density presentation artifacts. Inputs: `results.json` + section placeholders. Canonical outputs: `figures/*.pdf` + `tables/*.tex`. Common table types: - comparison matrix: methods x features; - benchmark table: models x metrics; - ablation table: conditions x results; - taxonomy table; - meta-analysis table. Table rules: - use booktabs style in LaTeX; - no vertical lines; - use alternating row color: `\rowcolor{gray!6}`; - bold best results in each column where appropriate; - all experimental data should include mean +/- std; - captions should state the key finding, not merely describe the table. Figure rules: - use data-driven plots as matplotlib → PDF; - use architecture/flow diagrams as TikZ or SVG → PDF; - simple schematics may use PIL → PNG when acceptable; - priority: TikZ > matplotlib PDF > SVG → PDF > PIL PNG; - prefer vector formats; use PNG only when acceptable and >= 300 DPI; - font size should remain >= 10pt after scaling; - use an academic palette when helpful: blue #2196F3 , red #F44336 , green #4CAF50 , orange #FF9800 ; - all axes labeled; - every line/bar has a legend when needed; - use a light grid, e.g. alpha=0.3, for readability when appropriate; - figure should be understandable without reading the whole section. Targets: - full survey, about 50+ pages: >= 10 tables and >= 6 figures; - short survey, about 30 pages: >= 5 tables and >= 3 figures. ## Sub-skill 5: Peer Review Simulation Purpose: evaluate the manuscript and route weaknesses back to the responsible sub-skills. Inputs: compiled PDF. Canonical outputs: score + weakness list routed to sub-skills 1-4. Reviewer personas: Use 3-5 reviewer personas per round. | Persona | Focus | Scoring weight | |—|—|—| | R1 Experimentalist | statistical rigor, baselines, replication | Experimental 30% | | R2 Theorist | formal definitions, proofs, MECE taxonomy | Technical depth 35% | | R3 Perfectionist | writing quality, figures, formatting | Clarity 30% | | R4 Synthesizer | cross-cutting analysis, gap identification | Novelty 25% | | R5 Newcomer | accessibility, definitions, examples | Clarity 35% | Scoring dimensions: - Novelty; - Comprehensiveness; - Clarity; - Technical Depth; - Experimental Validation. Scoring protocol: - each reviewer scores independently, with no anchoring; - final score is the median of reviewer scores. Calibration: - 6.0: complete workshop-level draft; - 7.0: main-conference borderline/acceptable quality; - 8.0: strong accept level for survey quality; - 8.5+: strong, polished, evidence-backed survey; - 9.0: oral-level paper. Anti-inflation rules: - first review round score is capped at 7.0; - max improvement per round is +1.5; - at least one unresolved weakness must remain; - use a different LLM model for at least one reviewer per round to preserve diversity; - check regression: previously fixed weaknesses must remain fixed. Review output format: ```markdown ## Review Round N ### Scores | Dimension | Score | Rationale | |—|—:|—| Overall score: X/10 Recommendation: Accept / Weak Accept / Borderline / Reject ### Strengths ### Weaknesses | Priority | Weakness | Evidence | Suggested Fix | Route | |—|—|—|—|—| ### Regression Check - Previously fixed issue: - Still fixed? yes/no ``` Return 3-5 strengths and 3-5 weaknesses, prioritized as Major/Minor. ## Workflow and Phase Routing ### Phase 1: Draft, target 6.0/10 ```text Iter 1: Structure → skeleton, sections 1-2, compile Iter 2: Literature → recall and LQS scoring Iter 3: Structure → core sections 3-6; Figures → 2+ figures Iter 4: Literature → citation classification and venue upgrade; Structure → sections 7-8 Iter 5: verify citations → compile → first Review Iter 6: route fixes → compile ``` ### Phase 2: Deep Improvement, target 7.5-8.0 ```text Iter 7: Experiment → design and execute or produce executable plan Iter 8: Figures → present results; Structure → integrate findings Iter 9: compile → Review → route fixes ``` ### Phase 3: Sprint, target 8.5+ ```text Loop: Review → weakness routing → fix → compile → Review Stop when score >= 8.5, or score delta <= 0.3 for two rounds, or iteration > 12. ``` ## Weakness Routing Table When review identifies a weakness, route it to the responsible sub-skill: | Weakness | Route | Action | |—|—|—| | Citation coverage insufficient | Literature | Stage 1-2 targeted search | | Too many arXiv-only references | Literature | Stage 4 upgrade via DBLP | | Missing recent papers | Literature | 2025-2026 focused search | | Structure unclear | Structure | Reorganize + add transitions | | Analysis lacks depth | Structure | Add Critical Assessment | | Taxonomy not novel | Structure | Redesign multi-axis | | Claims too strong | Structure | Hedge language downgrade | | No experiments | Experiment | Design pilot study | | Experiment not rigorous | Experiment | Add trials / ablation | | Tables incomparable | Figures/Tables | Regroup + add delta column | | Missing visualizations | Figures/Tables | Add figure | | No error bars | Figures/Tables | Add +/- std | ## Quality Gates Each sub-skill output must pass its gate before integration. Gates 1 and 2 can run in parallel; Gate 5 is blocking. ### Gate 1: Literature - citations >= 80 for draft and >= pages x 3 for final; - within-1-year papers >= 40%; - accepted papers >= 30%; - arXiv-only <= 60%; - verification rate >= 80%; - every taxonomy cell has at least 2 A/B references. ### Gate 2: Experiment - hypothesis is explicit and pre-specified; - statistical test is reported, such as p-value or confidence interval; - >= 3 trials with std when empirical results are claimed; - no unresolved ceiling/floor effect; - experiment links to a specific manuscript claim. - bonus: a surprise finding with follow-up analysis. ### Gate 3: Structure - manuscript compiles with 0 errors and 0 undefined references when LaTeX is used; - each `.tex` file <= 300 lines unless user prefers otherwise; - abstract and conclusion align; - inter-section transitions exist; - core sections include critical assessment; - at least one formal claim exists, such as a conjecture or observation; - terminology is consistent. ### Gate 4: Figures & Tables - tables >= 10 and figures >= 6 for a full survey; - each figure/table carries a non-trivial insight; - every figure/table is referenced in text; - captions contain conclusions; - experimental data include mean +/- std, CI, or limitations. ### Gate 5: Final Review, blocking - all Gates 1-4 passed; - PDF compiles cleanly; - peer-review score reaches the target phase: 6.0, 7.0, 8.0, or 8.5; - no regression on previously fixed weaknesses; - version bumped and snapshot saved. ## Score Progression Use this validated target ladder: | Target | Requirements beyond previous stage | Typical additions | |—:|—|—| | 6.0 | complete draft, 80+ references, compiles | full 8 sections + basic tables | | 7.0 | logical transitions, quantitative data, gap analysis | formal conjecture + grouped tables | | 8.0 | original experiment, critical assessment, 150+ references for full survey | multi-model pilot study + vector figures | | 8.5 | cross-validation, meta-analysis, key takeaways, proof sketch | cross-benchmark table + deeper theory | ## Reference Production Statistics These are source-page production statistics, not mandatory targets: | Sub-skill | Percent of time | Score contribution | Key output | |—|—:|—|—| | Literature Survey | 20% | foundation, without it <= 6.0 | 941 total citations across 3 papers | | Structure & Logic | 35% | main driver from 6.0 → 7.5 | 190 pages of manuscript | | Experiment Design | 20% | +1.0 to +1.5 points | 3,300+ API calls, 9 models evaluated | | Figures & Tables | 10% | +0.5 to +1.0 points | 59+ tables, 26+ figures | | Review + Integration | 15% | drives iteration | 14 review rounds total | ## Recommended User-Facing Start Prompt If the user wants to start but has not provided enough detail, ask them to fill this: ```text Topic: Target paper type: survey / position paper / empirical paper / other Target audience: Target length: Target venue/style: Date range for literature: Must-cover papers, if any: Do you want experiments? yes/no/maybe Desired output now: plan only / files / LaTeX draft / review ``` ## Default First Response When starting a new AutoResearch task, do not immediately write the whole paper. First produce: 1. Scope / Angle / Audience; 2. candidate title; 3. taxonomy draft; 4. chapter outline; 5. literature search plan; 6. next action checklist. Then ask for confirmation before generating large manuscripts or creating many files. 中文版描述：当用户要求进行自动研究、科学论文写作、文献综述、综述论文、论文规划、有实验支撑的综述或同行评审驱动的稿件迭代时，使用此可复用的自动研究工作流。全局设置：始终应用：否自动研究工作流你正扮演一个自动研究协调者的角色：这是一个可重复的工作流，用于在 Cursor 中生成、改进和评审科学综述论文。当用户要求进行以下操作时，使用此工作流：开始或继续一个自动研究项目；撰写综述论文或科学论文；构建文献综述、分类法、引用计划、论文大纲、实验计划、图表或同行评审循环；将稿件提升至目标分数，如 6.0、7.0、8.0 或 8.5+。不要捏造引用、发表地点、基准数据或实验结果。如果缺少证据，要么检索/检查来源，要么向用户索取输入信息，要么明确将相关条目标记为临时性内容。核心原则自动研究并非一个一次性的写作提示。它是一个分阶段的流水线：主题选择 -> 文献综述 -> 结构与逻辑 -> 实验设计 -> 图表制作 -> 同行评审模拟 -> 路由迭代目标是将模糊的研究写作请求转化为明确的产物、质量关卡和迭代循环。标准项目产物在创建文件时，除非用户指定了其他布局，否则优先使用此结构： autoresearch/ 00_主题.md 01_文献/ 检索计划.md 参考文献.bib 引用计划.jsonl 文献矩阵.md 02_结构/ 大纲.md 分类法.md 论断.md 章节/ 03_实验/ 实验计划.md 结果.json 实验总结.md 04_图表/ 图表计划.md 图片/ 表格/ 05_评审/ 评审轮次_01.md 弱点路由.md 稿件/ 主文件.tex 章节/ 参考文献.bib 对于仅需规划的小型任务，不要自动创建所有文件夹。如果被要求，从聊天中的一个精简计划或单个 markdown 文件开始。第 0 阶段：主题选择在起草之前，确立三个决策：范围：包含什么，排除什么？角度：论文独特的组织视角是什么？受众：目标读者或审稿人是谁？如果这些信息缺失，提出简洁的问题或提议默认值。在主题通过此测试之前，不要进行完整的稿件生成：范围既不过宽也不过窄。角度不仅仅是"近期论文"。受众是明确的。推荐输出： ## 主题选择 - 暂定标题： - 范围： - 排除项： - 角度： - 受众： - 目标发表地/风格： - 目标长度： - 成功标准：子技能 1：文献综述目的：检索、评分、分类和核实论文。输入：主题 + 分类关键词。规范输出：参考文献.bib + 引用计划.jsonl 。流水线：召回 -> LQS 评分 -> A/B/C/D 分类 -> 发表地升级 -> 核实输入：主题；分类关键词；日期范围；发表地限制；种子论文（如有）。输出：参考文献.bib ；引用计划.jsonl ；文献矩阵.md 。检索规则为一次完整综述生成 20-30 个检索查询，或为快速检索生成 5-10 个。在适当时使用源风格查询，例如 search.py -o "site:arxiv.org ..." 。对于每个分类单元，创建至少 3 个查询变体：核心术语、同义词和方法名称。在可能时，从种子论文开始进行滚雪球式检索。完整综述的目标是获取 200-500 个原始候选文献；快速综述则为 30-80 个。 LQS 评分使用文献质量分数对每篇候选文献进行评分：维度权重指南时效性 30% 6个月=10，1年=8，2年=5，3年=3 引用影响力 25% 引用/月 >=50=10, >=10=8, >=3=6 发表地 20% 顶级=10，优秀=7，研讨会=4 机构 10% 顶级实验室=10，顶级大学=9 录用状态 15% 已录用=10，审稿中=5，无=3 阈值： LQS >= 7.0：必须引用； 5.0 <= LQS < 7.0：有条件的； LQS < 5.0：除非出于历史或对比需要，否则舍弃。引用深度 A 级：1-3 个段落；章节中的主要论文。 A 级目标密度：每章 3-5 篇。 B 级：2-5 句话；重要的见解或比较点。 B 级目标密度：每章 5-10 篇。 C 级：1 句话；支持性证据。 D 级：不引用。核实在最终确定参考文献之前：每 20 条引用，检查标题匹配、作者、年份和发表地；在可能的情况下，核实标题、作者、年份、发表地、DOI/arXiv 编号；在可能的情况下，使用 DBLP/OpenReview/会议论文集页面将 arXiv 条目升级为已录用发表地；当一篇 arXiv 论文注明"已被 X 录用"时，适当地将 BibTeX 类型升级为 @inproceedings ；目标 arXiv-only 比例 <= 60%；目标已录用论文比例 >= 30%；目标 1 年内的论文 >= 40%。目标虚假参考文献数量 = 0。子技能 2：论文结构与逻辑目的：将来源和发现转化为一篇连贯的科学稿件。输入：参考文献列表 + 实验发现。规范输出：用于完整稿件的章节/*.tex 文件。典型的综述结构： 1. 引言：引子 -> 空白点 -> 贡献 -> 路线图 2. 背景：定义、问题设定、分类法概览 3-6. 核心章节：每个章节介绍一个方法家族 7. 基准测试与实验 8. 未来方向：具体的开放性问题，每个都以障碍 + 攻击向量的形式构建 9. 结论：编号的研究发现，而非摘要的重复有意识地使用段落模式：论断-证据-含义：主体部分。比较-对比：方法比较。让步-反驳：批判性分析。漏斗式：引言和动机部分。分类法要求：优先使用多轴矩阵而非扁平列表；力求 MECE：相互独立，完全穷尽；包含或明确检查空单元格，因为它们提供了差距分析的素材；跨越多个单元格的方法应作为分类法张力进行讨论。论断准则：除非存在证明，否则默认使用猜想 + 备注，而非定理；论断的力度不得超过证据的力度；使用模糊限制语阶梯：证明 > 表明 > 可能 > 假设。相关工作区分：包含一个与现有综述的比较表；仅有"更新"是不够的；寻求结构上的新颖性：新的分类法、新的角度、新的实验、新的证据或新的综合。子技能 3：实验设计目的：为论文中的具体论断添加证据。输入：一个猜想或空白点。规范输出：结果.json + 实验总结.md 。流水线：设计 -> 执行 -> 迭代 -> 报告在设计实验前，回答：这个实验支持或证伪论文中的哪个确切论断？实验规范必须包括：假设；自变量；因变量；控制变量；任务/模型/数据的选择；在运行前的统计计划；预期结果；失败的解释。设计原则：可证伪、最小化优先、预先注册、受控。在运行前确定统计计划，以避免 HARKing。执行路径：路径 A：API ：耗时数小时；模型比较、提示词消融、轻量级基准测试。路径 B：GPU/RL ：耗时数天；训练、奖励塑形、更重的系统实验。默认 API 规模：3-5 个前沿模型 x 2-3 种条件 x 15-25 个任务 x 3 次试验。默认 GPU/RL 路径：集群作业提交外加一个自动监控循环。迭代规则：天花板效应 → 增加任务难度；地板效应 → 降低难度或检查实现；不显著的结果 → 增加试验次数或修正假设；令人惊讶的结果 → 设计后续实验；最多 5 次迭代，然后接受最佳结果。输出应以数据为先：结果.json ：包含配置、结果、统计数据和发现；实验总结.md 。不要捏造结果。如果没有进行实验，仅产出一个实验计划。不要在此处生成最终的 LaTeX 表格或图表；这是图表子技能的工作。子技能 4：学术图表目的：将分类法、文献和实验数据转化为高密度的展示产物。输入：结果.json + 章节占位符。规范输出：图片/*.pdf + 表格/*.tex 。常见的表格类型：比较矩阵：方法 x 特征；基准测试表：模型 x 指标；消融表：条件 x 结果；分类法表；荟萃分析表。表格规则：在 LaTeX 中使用 booktabs 风格；不使用竖线；使用交替行颜色： \rowcolor{gray!6} ；在适当时，对每列中的最佳结果加粗；所有实验数据应包含均值 +/- 标准差；图表的标题应陈述关键发现，而不仅仅是描述图表。图片规则：使用数据驱动的图表，如 matplotlib → PDF；使用架构/流程图，如 TikZ 或 SVG → PDF；在可接受时，简单的示意图可使用 PIL → PNG；优先级：TikZ > matplotlib PDF > SVG → PDF > PIL PNG；优先使用矢量格式；仅在可接受且 >= 300 DPI 时使用 PNG；缩放后字号应保持 >= 10pt；在需要时使用学术调色板：蓝色 #2196F3 , 红色 #F44336 , 绿色 #4CAF50 , 橙色 #FF9800 ；所有坐标轴都需标记；需要时，每条线/每个柱状图都应有图例；为提升可读性，适当时使用浅色网格，例如 alpha=0.3；图片应在不阅读整个章节的情况下也能被理解。目标：完整综述，约 50 页以上：>= 10 张表格和 >= 6 张图片；简短综述，约 30 页：>= 5 张表格和 >= 3 张图片。子技能 5：同行评审模拟目的：评估稿件并将弱点路由回相关的子技能。输入：编译好的 PDF。规范输出：分数 + 路由至子技能 1-4 的弱点列表。评审者画像：每轮使用 3-5 个评审者画像。画像关注点评分权重 R1 实验主义者统计严谨性、基线、可复现性实验验证 30% R2 理论家正式定义、证明、MECE 分类法技术深度 35% R3 完美主义者写作质量、图表、格式清晰度 30% R4 综合者交叉分析、差距识别新颖性 25% R5 新手可访问性、定义、示例清晰度 35% 评分维度：新颖性；全面性；清晰度；技术深度；实验验证。评分协议：每位评审者独立评分，无锚定效应；最终分数取评审者评分的中位数。校准： 6.0：完整的研讨会级别草稿； 7.0：主会议边缘/可接受的质量； 8.0：综述质量的强力录用水平； 8.5+：强有力、精炼、有证据支持的综述； 9.0：口头报告级别的论文。反膨胀规则：第一轮评审分数上限为 7.0；每轮最大改进幅度为 +1.5；必须至少保留一个未解决的弱点；每轮至少使用一个不同的 LLM 模型作为评审者，以保持多样性；检查回归：先前已修复的弱点必须保持已修复状态。评审输出格式： ## 评审轮次 N ### 分数 | 维度 | 分数 | 理由 | |---|---:|---| 总分：X/10 建议：录用 / 弱录用 / 边缘 / 拒稿 ### 优点 1. 2. 3. ### 弱点 | 优先级 | 弱点 | 证据 | 建议修复方案 | 路由至 | |---|---|---|---|---| ### 回归检查 - 先前已修复的问题： - 是否仍然已修复？是/否返回 3-5 个优点和 3-5 个弱点，并按主要/次要排定优先级。工作流与阶段路由阶段 1：草稿，目标 6.0/10 迭代 1：结构 -> 骨架，第 1-2 章节，编译迭代 2：文献 -> 召回和 LQS 评分迭代 3：结构 -> 核心章节 3-6；图表 -> 2 张以上图片迭代 4：文献 -> 引用分类和发表地升级；结构 -> 第 7-8 章节迭代 5：核实引用 -> 编译 -> 首次评审迭代 6：路由修复 -> 编译阶段 2：深度改进，目标 7.5-8.0 迭代 7：实验 -> 设计并执行，或产出可执行计划迭代 8：图表 -> 展示结果；结构 -> 整合发现迭代 9：编译 -> 评审 -> 路由修复阶段 3：冲刺，目标 8.5+ 循环：评审 -> 弱点路由 -> 修复 -> 编译 -> 评审当分数 >= 8.5，或两轮分数变化 <= 0.3，或迭代超过 12 次时停止。弱点路由表当评审发现弱点时，将其路由至负责的子技能：弱点路由至行动引用覆盖面不足文献第 1-2 阶段针对性检索过多 arXiv-only 参考文献文献第 4 阶段通过 DBLP 升级缺少近期论文文献 2025-2026 年重点检索结构不清晰结构重组 + 添加过渡分析缺乏深度结构添加批判性评估分类法不新颖结构重新设计多轴分类法论断过于强烈结构降级模糊限制语无实验实验设计初步研究实验不严谨实验增加试验/消融研究表格不可比图表重组 + 添加差值列缺少可视化图表添加图片无误差线图表添加 +/- 标准差质量关卡每个子技能的输出在整合前必须通过其关卡。关卡 1 和 2 可并行运行；关卡 5 是阻塞性的。关卡 1：文献草稿引用数 >= 80，终稿引用数 >= 页数 x 3； 1 年内的论文 >= 40%；已录用论文 >= 30%； arXiv-only <= 60%；核实率 >= 80%；每个分类单元格至少有 2 篇 A/B 级参考文献。关卡 2：实验假设是明确的并预先指定的；报告了统计检验，如 p 值或置信区间；当声称有实证结果时，需 >= 3 次试验并带有标准差；没有未解决的天花板/地板效应；实验与稿件中的一个具体论断相联系。加分项：一个带有后续分析的意外发现。关卡 3：结构当使用 LaTeX 时，稿件编译零错误、零未定义引用；除非用户另有偏好，每个 .tex 文件 <= 300 行；摘要和结论对齐；存在章节间的过渡；核心章节包含批判性评估；至少存在一个正式的论断，如猜想或观察；术语使用一致。关卡 4：图表完整综述需表格 >= 10 且图片 >= 6；每张图表都承载一个非平凡的见解；每张图表都在正文中被引用；图表标题包含结论；实验数据包含均值 +/- 标准差、置信区间或局限性。关卡 5：最终评审，阻塞性所有关卡 1-4 已通过； PDF 干净编译；同行评审分数达到目标阶段：6.0、7.0、8.0 或 8.5；先前修复的弱点没有出现回归；版本已更新并保存了快照。分数提升使用此经过验证的目标阶梯：目标超出前一阶段的要求典型的增加项 6.0 完整草稿，80+ 参考文献，可编译完整的 8 个章节 + 基本表格 7.0 逻辑过渡，定量数据，差距分析正式猜想 + 分组表格 8.0 原创实验，批判性评估，完整综述需 150+ 参考文献多模型初步研究 + 矢量图 8.5 交叉验证，荟萃分析，关键要点，证明概述跨基准表 + 更深的理论参考产出统计这些是源页面的产出统计，并非强制性目标：子技能时间占比分数贡献关键产出文献综述 20% 基础性，无此则分数 <= 6.0 3 篇论文总计 941 条引用结构与逻辑 35% 从 6.0 到 7.5 的主要驱动力 190 页稿件实验设计 20% +1.0 到 +1.5 分 3,300+ 次 API 调用，评估 9 个模型图表 10% +0.5 到 +1.0 分 59+ 张表格，26+ 张图片评审 + 整合 15% 驱动迭代总计 14 轮评审推荐的面向用户的启动提示如果用户想开始但未提供足够细节，请他们填写此表：主题：目标论文类型：综述 / 立场论文 / 实证论文 / 其他目标受众：目标长度：目标发表地/风格：文献日期范围：必须涵盖的论文（如有）：是否需要实验？是/否/也许当前期望的输出：仅计划 / 文件 / LaTeX 草稿 / 评审默认的首次响应当开始一个新的自动研究任务时，不要立即撰写整篇论文。首先生成：范围 / 角度 / 受众；候选标题；分类法草案；章节大纲；文献检索计划；下一步行动清单。然后在生成大量稿件或创建许多文件之前，请求用户确认。原始博客 Deli Chen - DeepSeek AI Researcher 3 个帖子 - 3 位参与者阅读完整话题

如何看待目前自迭代，自进化的框架

LinuxDo 最新话题 · 2026-05-25 17:09:20+08:00 · tech

Karpathy开源了autoresearch之后，能够自己迭代自己进化的研究框架一直很火，auto也确实很迷人，后面也出现了如autoagent，开发方面的autoresearch 我觉得想要性能增强，首先要搞清楚的是为什么性能不够强，也就是找问题，或者说debug，找出问题之后再判断能不能解决，解决一个有解的问题是不难的但找问题这个过程是很痛苦的，一是问题本身就很难被发现，二是问题的本质也难以理解，三是找到的问题有可能是目前模型能力，架构性能已经到顶了，只有等更强的模型发布才有可能解决我曾经用过codexloop等codex循环项目，给他一个benchmark和baseline，让他自己跑实验，找问题优化，跑了一天一夜可以说一点成果都没有，甚至出现了偷看测试集，深度预习的现象 1 个帖子 - 1 位参与者阅读完整话题

/goal 发布后，codex-autoresearch 方案还有必要吗？

LinuxDo 最新话题 · 2026-05-10 21:37:40+08:00 · tech

一直在想办法将 Codex-AutoResearch 这个工作流融入到我现在的开发过程当中。但其实 Codex-AutoResearch 这个工具的核心就只是 loop ，也就 3 个东西： goal 一句话目标 verify 检查距离目标还有多远的shell命令 metric 目标指标我觉得这两个指标其实在使用 /goal 命令的时候，把这种 metric 和 verify 的理念传入一下，感觉效果其实也是差不多的，而且使用复杂度上我觉得低了不少。甚至从 /goal 是前台启动上来说，甚至更直观，因为可以很方便的查看工作过程。有佬友试过这两者的差别吗？ 3 个帖子 - 2 位参与者阅读完整话题

autoresearch发布一个月后，社区把它的边界扩展到了哪里

linux.do · 2026-04-23 11:05:41+08:00 · tech

给 AI 一个最小闭环，它能走多远 autoresearch 发布一个月后，社区把它的边界推到了哪里在 karpathy/autoresearch 刚开源出来时，我也试着把它迁到一个 auto-flappy-bird 的小场景里。跑了十几轮以后，训练出来的模型已经可以比较稳定地飞过 20 多个管道。但我很快意识到，是它不仅能迁到一个强化学习任务里，而是它把“有对象、有评测、有预算、可回滚”的最小闭环压得足够小。小到你会自然开始追问：这套东西还能被用到哪里去？现在一个多月过去了，社区里冒出来一批 fork、讨论和衍生项目。我回过头重新看这批东西时，忽然注意到，autoresearch 精神最浓缩的表达，其实就是原实验思路提示词里的： [!important] NEVER STOP : Once … 我后来越看越觉得，社区过去一个月里真正值得看的那些探索，几乎都在回答同一个问题：怎样让一个每几分钟就会停下来的实验，尽可能长成一个不会停下来的研究系统。这也是为什么我现在不太想再写“autoresearch 是什么”。大家差不多都知道了。现在更值得追踪的是，一个月过去，社区到底把这套东西扩展到了哪里。先说原点：autoresearch 为什么会火 autoresearch 原版其实很小。人写实验思路提示词 program.md ，agent 改算法 train.py ，而 prepare.py 负责数据和评估，agent 不能碰。每轮实验给固定预算，跑完看分数，决定 keep 还是 revert，然后继续下一轮。从代码结构上看，它并不复杂。但它第一次把一件事压缩得非常清楚：局部可改对象、固定评测、固定预算、可回滚。也就是说，它把“让 agent 连续试错”这件事，压成了一个真的能跑起来的最小闭环。这一步很关键。因为很多 agent 项目的问题，不是不会生成，不是不会调用工具，而是没有一个足够硬的闭环。它们能做很多事，但很难一直做下去。autoresearch 则相反。它先把边界收得很死，然后才换来那句 NEVER STOP 的成立。所以我现在更愿意把它理解成一个起点：不是“AI 开始自己做研究”的起点，而是最小自治研究闭环第一次被压到足够小、足够硬、足够可复现。第一批扩展，不是更聪明，而是先让它摆脱“人得守在旁边” 原版 autoresearch 更像一个本地脚本。你可以启动它，看着它跑，甚至中间打断它。但只要你真的把 NEVER STOP 当回事，问题马上就会变。你会开始关心的，不再只是 prompt 怎么写，而是：谁来提供 GPU，谁来保实验日志，程序中断了怎么办。所以像那些把 AutoResearch 搬到云端、搬到远程执行环境里的项目（如 mlpatron 等），不适合简单理解成“上云版 AutoResearch”。它们真正补的，不是能力，而是运行形态本身。原版解决的是“怎么启动一个闭环”，远程化和托管化处理的则是另一层问题：这个闭环能不能脱离人的在场。这听起来像基础设施，其实已经碰到 autoresearch 最核心的那条线了。因为 NEVER STOP 不是一句漂亮口号。它要成立，后面得有一整套持续运行条件：你离开了，实验还在跑；你睡了，日志还在写；一轮失败了，系统还能自己接着往下试。我一开始以为这只是一个工程层面的补丁，后来越看越觉得，它其实已经在改写人和研究系统之间的分工。到了这里，社区处理的已经不是“这个 agent 会不会改代码”，而是“这套 loop 能不能真的一直运转”。再往前一步，一个不会睡觉的 agent 还不够一个不行，就上更多个。也就是 mutable-state-inc/autoresearch-at-home 这一类项目。它想解决的，不再是“单个 agent 能不能一直试”，而是“很多 agent 能不能像一个研究网络那样协作起来”。原版 autoresearch 解决的是：一个 agent，围着一个目标，不停试。到了这里，问题开始变成：很多 agent 怎么一起研究，怎么避免重复劳动，怎么共享当前最优结果，怎么把失败也变成公共经验。技术细节先不展开。我更愿意换成一种容易理解的说法：原版像一个人在夜里独自改算法 train.py 。到了 autoresearch-at-home ，社区开始尝试的是一个研究共同体。有人先认领一个方向，避免大家撞到同一块地方；有人接着跑；有人把结果发出来；后面的人在前面的基础上继续。这时 autoresearch 碰到的已经不是模型优化问题了，而是研究协作问题。看到这里我才慢慢意识到，社区在补的已经不只是 agent 的能力，而是研究这件事本身的组织形式。原版里的 NEVER STOP ，说的是一个 agent 不要停。到了这里，问题已经变成另一句了：一个 agent 停了，整个研究过程能不能不停。这一步一出来，味道就变了。因为它说明 autoresearch 的外扩，已经不只是“同一个 loop 跑更多次”，而是在碰研究这件事最老的难题：怎么分工，怎么接力，怎么让局部进展变成公共进展。不只是模型算法自动优化，而是把 train.py 抽象掉如果只盯着原 repo，你很容易误以为 autoresearch 的意义主要在训练模型。但像 kousun12/darwin-derby 这种项目，做的是另一件事。它几乎把 autoresearch 的内核剥出来了：可变对象不再是算法 train.py ，而可以是任意“当前状态”；评测器不再是训练损失，而可以是任何一个返回分数的任务；agent 改状态，拿分，保留或回滚，继续。 autoresearch 到这里已经很像一个通用搜索框架了：只要你能定义一个可变对象，给出一个足够硬的评分器，这个 loop 就可能跑起来。但也正是在这里，问题开始反过来落到人身上。 darwin-derby 有一个我很认同的设计：负责打分的那部分规则，对 agent 是隐藏的。项目里把它写在 score.py 里。原因并不复杂。如果优化器看得到评估函数，它迟早会学会利用它。不是因为它“想作弊”，而是因为你给了它一条更短的路，它就会顺着走。我原先更在意它能不能迁到新领域，后来反而越来越在意另一件事：谁在定义这个领域里什么叫“更好”。这也是为什么我现在越来越觉得，autoresearch 的真正边界不是领域，而是评分器的质量。一个问题能不能塞进这套 loop，不只取决于它能不能被打分，还取决于这个分数是不是值得被无情优化。说得再直一点：你给它一个数字，它就会冲着那个数字跑。至于这个数字和你真正想要的东西是不是一回事，那是人得先想清楚的。一个典型的非模型训练案例 autoimprove 这个 RAG 案例，我觉得特别值得看。它碰的不是模型训练本身，而是一个混合搜索系统：给定一批文档、查询和评测集，看 agent 能不能把检索效果一点点往上推。一方面因为 RAG 就是现在最热的 AI 应用层问题之一。另一方面因为它很直白地说明了一件事：这套 loop 外溢出去的，不是训练技巧，而是把问题改写成“有可变对象、有评测器、有预算”的能力。这个案例里，agent 在一个 44,000 个文本块组成的混合搜索系统上反复试，14 次实验之后，综合分从 0.42 提升到 0.46。最值得看的不是这个数字本身，而是最大单次改进并不是人手工指定的，而是它自己发现用 RRF 替代原来的加权融合更合适。它说明 agent 能找到的，并不只是那种“没人想到过的惊天大发现”，而更像另一类东西：人知道可能有用，但懒得系统试，或者没空完整跑完的工程改法。这类改法其实最容易被忽视。不是因为它没价值，而是因为它很少值得一个人拿一周时间扎进去穷举。autoresearch 在这里补上的，恰恰就是这段人类通常会放掉的空白。这里我很喜欢作者想表达的那个意思：你不再主要是在用 Python 写程序，而是在用 Markdown 描述 agent 应该遵循的过程。 Shopify 和营销归因这两个案例，把事情又往前推了一截 autoresearch 发布几天后，Shopify CEO Tobi Lutke 把这个 loop 对准了 Shopify 的模板引擎 Liquid——一个由数百个贡献者持续优化了 20 年的代码库。他用的不是 Karpathy 的 LLM 训练任务，而是渲染速度。Agent 跑了 93 个实验，自动提交了 93 次。结果：渲染速度提升 53%，内存分配减少 61%。 Shopify 的例子，我觉得真正值得记住的不是提速多少，而是他们工程师那个很准的判断：autoresearch 的价值，不只是把人本来会做的工作做得更快，而是在做那些没人会手动排进 sprint 的工作。 autoresearch 第一批真正有效的场景，很多都长这个样子：价值明确，收益稳定，但执行太枯燥，太碎，太难和其他重点工作抢资源。人理性上知道值得做，现实里总会拖着。agent 则不会烦，也不会觉得无聊。再看 lucianfialho/mmm-research 这个案例，它做的不是工程优化，也不是搜索系统，而是 Marketing Mix Modeling，也就是营销归因建模。说白一点，就是让 agent 去碰“投出去的钱，最后到底是哪些渠道真正带来了销量”这种业务问题。到这一步，autoresearch 已经不只是进工程系统、RAG 系统，而是开始碰那些业务味更重、但价值也更直接的问题了。但这个案例最有价值的地方，不是那个漂亮的指标数字，而是后面的复盘。因为它很快暴露出另一件事：只要那部分原本留着做“最终检验”的反馈，持续回流给 agent，它迟早会学会顺着这条反馈去优化自己。它不是“想作弊”，它只是在最小化你给它的那个目标。看到这里，我越来越认同一个判断： Goodhart 定律在 autoresearch 里不是一句提醒，而是工程约束。 [!note] Goodhart定律（Goodhart’s law）的核心是：当一个度量指标被用作目标时，它将不再是一个有效的指标。你定义的分数是什么，它就优化什么。你留下的漏洞是什么，它就利用什么。问题不是 agent 会不会学坏，而是你有没有把游戏规则写明白。也正因为这样，我现在反而觉得 mmm-research 这种案例特别重要。它当然证明了 autoresearch 可以碰营销归因这种离训练很远的问题，但它更重要的地方在于，它把这套方法最真实的代价也一起摊开了：你不是把一个 loop 扔进去就行了，你还得对自己的评测机制负全责。你想让它一直跑，它就会一直跑。可它到底是在替你做研究，还是在替你钻规则的空子，最后还是你来决定。后来大家补的，已经不只是更多实验，而是记忆和环境如果说前面这些扩展，主要还在回答“这套 loop 能不能进更多问题”，那 habanwer/autoresearch-MIL 和 Research Worlds 这两条线，开始处理的是另一件事：这套 loop 能不能长时间活下去。原版 autoresearch 有一个很明显的限制：它几乎没有长期记忆。一次 session 结束了，下次再开，很多东西就得重新来。 autoresearch-MIL 补的正是这个缺口。它让 agent 在每轮结束后写 sessions/memory.md ，把目前最好的结果、保留下来的实验和关键上下文记下来。下一轮启动时，先读自己的历史经验，再继续往下跑。这听起来朴素，实际上很重要。因为一旦 loop 真要接近 NEVER STOP ，失忆就会变成结构性问题。你可以接受 agent 某一轮试错失败，但你很难接受它每次重启都像第一次来。还有一类更抽象、但也更重要的尝试，是开始把“研究环境本身”写出来。 Research Worlds 讨论的已经不只是“怎么记住上轮实验”，而是“怎么把研究环境本身写出来”。你可以把它理解成：不再只给 agent 一个 prompt 和几个脚本，而是把数据、目标、约束、角色、算力预算、停止条件这些规则一起写进一个 environment。原来散在 prompt、脚本和人脑子里的东西，开始被明确固化下来。到这里，我的感觉已经不是“大家在做更多实验”，而是“大家开始认真面对一个长期运行系统到底靠什么活着”。把这两条线放在一起看，我自己的感受是：最小闭环正在从 loop 长成 environment。前面那些扩展，还是在补 loop 的边界。到了这里，社区开始补的是更慢、更麻烦、但也更关键的东西：记忆、治理、环境规则。说得直白一点，大家已经不满足于让 agent 多跑几轮了，开始认真处理“它长期活着时，世界长什么样”这个问题。所以最后真正重要的，不是 NEVER STOP ，而是谁来决定它追什么这一个月的社区实验，已经证明了很多事。它证明 loop 能离开原始训练任务。能去 RAG。能去营销归因。能去协作网络。能去跨 session 记忆。甚至开始往 environment 的方向长。但这些实验同时也反过来证明了一件更硬的事： loop 能走多远，最后还是卡在写 program.md 的人，和定义 score.py 的人。 DataCamp 有一句话，我觉得放在这里特别合适： [!important] 写一个好的 program.md ，需要你自己做过这件研究。你得知道哪些方向值得试，“更好”对你的问题到底意味着什么。这句话背后的意思很直白：你不能用 autoresearch 去替代你还没形成的理解。它能加速你已经理解的问题空间，但它不会自动替你发明一个可靠的问题定义。同样， score.py 也从来不只是个技术附件。谁定义 score，谁就在定义这个系统会朝哪儿冲；谁没有把漏洞堵住，谁就等于提前把作弊的路径写进了规则里。说到底，人的角色没有消失，只是变了。以前你是那个亲手做实验的人。现在你越来越像那个写研究环境的人：定义目标，收紧边界，设计评测，决定哪些方向值得浪费预算，哪些不值得。我写到这里，反而越来越不觉得 autoresearch 的核心是“自动做研究”这四个字。它当然让 agent 的执行能力往前走了很多步，但它也顺手把人的工作重新划了一遍。人不再主要负责把每一轮实验亲手跑完，而是负责决定：这个系统应该追什么，应该看什么，哪些反馈信号可信，哪些根本不能放进回路里。这活没有轻松多少，只是更靠前了。结尾如果只看热度，autoresearch 很容易被写成一个“agent 开始自己做研究”的故事。但我现在更愿意把它理解成另一种变化：研究这件事，第一次被压缩成了一个可以持续运行的最小闭环。过去一个月里，社区最有价值的探索，不是在重复这个 repo，而是在不断补齐让这条闭环更接近 NEVER STOP 的条件。只是走到最后，人的位置并没有消失，反而变得更清楚了。 AutoResearch 这一个月的社区实验，证明了 loop 能走进的领域比很多人一开始想得更宽。但它也同样证明了：能走多远，取决于写 program.md 的人的知识边界，以及定义 score.py 的人有没有把漏洞提前堵住。 NEVER STOP 是给 agent 的指令。但谁来决定它追什么、怎么算赢、哪些反馈信号根本不该放进回路里——这件事还没有办法委托出去。参考链接 karpathy/autoresearch https://github.com/karpathy/autoresearch 原始 program.md https://github.com/karpathy/autoresearch/blob/master/program.md mutable-state-inc/autoresearch-at-home https://github.com/mutable-state-inc/autoresearch-at-home kousun12/darwin-derby https://github.com/kousun12/darwin-derby autoimprove 项目说明 https://adelzaalouk.me/2026/mar/15/autoimprove-autonomous-optimization/ Shopify 工程文章 https://shopify.engineering/autoresearch lucianfialho/mmm-research https://github.com/lucianfialho/mmm-research habanwer/autoresearch-MIL https://github.com/habanwer/autoresearch-MIL Research Worlds 讨论串 https://github.com/karpathy/autoresearch/discussions/275 DataCamp 指南 https://www.datacamp.com/tutorial/guide-to-autoresearch 1 个帖子 - 1 位参与者阅读完整话题