现在使用sharp3D来让他做,skill也上了但是确实做的很差 3 个帖子 - 2 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上周累死累活的毕业论文论文终于是搞完了,于是就回顾了一下最头疼的地方。 我觉得最头疼的地方不是论文内容有多难改吧,毕竟现在大大家都用ai来写了基本上内容不用操什么心,反而是看来比较简单的改格式是真的烦人,特别是论文经过多次来回,容易出现一些特别细微的地方出现问题,然后被打回来,然后改完等导师看,又是一天过去了,但是捏,codex和claude貌似原始形态来做格式对照效果并不好,可能是我的使用方法有问题,总之就是还会让我发现一些地方,或者干脆就特别明显,演都不演了那种。唯一比较好用的就是team的pro,倒是真的还不错,但是实际上也会有一点小问题,而且修改时间动则1h以上。 所以基于以上问题我在L站搜索了一下,发现貌似没有特别好的解决方案,于是就比较针对性的vibe了一个skills来解决这个问题,发现效果意外的还不错,但是难免会有一些粗糙的地方,所以分享在这里,抛砖引玉,看看能不能集众人之力来完善这个方案qwq github: GitHub - ooyyh/templates-papers-matching · GitHub 如果帮到你了~请给我一个star~ 2 个帖子 - 2 位参与者 阅读完整话题
agent 是智能体的意思,什么是智能体呢,为啥不叫AI了啊,也不叫大模型了,其实这并不是孤立的概念,AI中文就是人工智能,英文全称:Artificial Intelligence,其实就是计算机科学的一个分支,用来研究开发模拟,延伸人的理论方法技术和应用研究。大模型是ai具象化的技术产品,大模型还分了LLM语言大模型、VLM视觉大模型、MLLM多模态、技术上又出现了很多细节,比如混合专家模型-MOE。 MCP 是定的ai识别的上下文协议,用来,调用外部的服务器,返回固定内容信息的一个规则,大家都用这个规则,不就方便了ai调用外部工具获取信息了。方便打通不同企业数据库和ai的交互。 tools 就是工具的意思,这里和mcp紧密相连,tools泛指一类工具,遵循的上下文协议也未必是mcp。方便ai通过这个工具进行获取信息。 plugin是插件的意思,就是个扩展包,这不是ai独有的概念,浏览器有插件,任何应用都可能有插件,一个插件里面东西就多了,可以包含skill,agents,hooks,mcp severs等内容。 prompt是提示词的意思,大模型学的东西多了,大模型要在知识汪洋中预测你想要的下一个词,简直不要太难,那么就帮她缩小范围降低幻觉,那就是定人物,定任务范围,定目标,这样将结合以上的信息,进行数据处理,就大大降低了,大模型胡说八道的可能性。大模型本身就是个统计学问题,根本不具备任何智慧,和反思能力,并非动态进化的,而是提前通过人类社会无数的现有文档,向量化,然后通过多维向量的训练出来的,一个具备无数维度的数学矩阵,通过通过上下文的切割成token又称词元,一个词元就是一个数字,多个词元就组成了一个数学矩阵,将这个数学矩阵扔到transform架构的数学矩阵中。我也不知道是不是百亿参数是不是也决定了词元的数量呢,会影响回应呢? workflow就是工作流,针对一项工作设计的工作流程,使其完成特定的任务,取代繁重的工作。 hook钩子的意思,什么是钩子啊就是,当执行到特定情况或者涉及特殊判断的时候就会触发的程序,相当于一个钩子,勾住了你的工作流,在特定情况下触发,进而保证进程的稳定和顺利。 skill技能的意思,技能可以是一个md说明的工作文档,也可以是md说明文档加一些小程序、或者一些模板的综合体,目标就是让大模型能按你的md说明文档进行工作。 harness就是一个工作台,工作台上啥也有,自由搭配,想用啥就用啥,比如有plugin、tools、prompt、workflow、hook、skill、和设定好的agent。 AI / 人工智能 └── 大模型 / LLM / VLM / MLLM └── Agentic System / 智能体系统 ├── Prompt:给模型的指令 ├── Context:当前任务上下文 ├── Memory:可长期保存或检索的历史信息 ├── Tools:模型可调用的外部能力 │ └── MCP:连接 tools / resources / prompts 的标准协议之一 ├── Workflow:预设流程 ├── Hook:生命周期触发器 ├── Skill:可复用能力包 ├── Plugin:可安装扩展包 └── Harness:运行框架 / 执行外壳 agent 是配置了 instructions、tools,以及可选运行行为的 LLM MCP Server 可以向 AI 应用暴露 resources、prompts 和 tools。这样不同 AI 应用和不同外部系统之间就不用每次都重新写一套私有接口。 Tool:一个具体能力 MCP Tool:通过 MCP 协议暴露出来的 tool MCP Server:把一组 tools / resources / prompts 提供给 AI 应用 Agent:根据任务需要决定是否调用这些工具 plugin 可能包含 tools、skills、agents、hooks、MCP servers 等内容。简单说,plugin 是“打包和分发能力”的方式。 prompt 帮模型缩小范围,降低幻觉。这个是对的。OpenAI 文档也把 prompt engineering 描述为编写有效指令,让模型更稳定地产生符合要求的内容。 大模型本质上是通过大量数据训练出来的神经网络,它没有人类意义上的主观意识,也不会在普通对话中自动修改自己的模型参数。它的回答来自当前输入、上下文、训练得到的参数,以及推理时的生成过程。我们看到的“推理”“反思”“自我检查”,更多是模型在特定提示、上下文或工具流程下表现出来的能力,而不是人类式的自我意识。 Token:文本被切分后的处理单位。 Token ID:token 被映射成的数字编号。 Embedding:token ID 进入模型后对应的向量表示。 Parameter:模型训练出来的权重和偏置。 Context window:一次输入/输出能处理的 token 上限。 Training tokens:训练时看过的数据 token 数量。 Vocabulary size:分词器支持的 token 种类数量。 文本会先被 tokenizer 切成 token,再映射成 token ID。模型会把 token ID 转成向量表示,也就是 embedding,然后送入 Transformer 网络中计算。Transformer 通过注意力机制和多层神经网络,结合上下文预测后续 token。参数量指的是模型内部训练出来的权重数量,和输入 token 数不是同一个概念。 Workflow 是预先设计好的流程。它强调“步骤固定、路径清楚、可控性强”。比如先读订单,再判断退款规则,再调用退款接口,再发送通知。workflow 里可以用大模型,也可以不用大模型。它和 agent 的区别是:workflow 的路径主要由人或程序提前写好;agent 的路径更多由模型根据目标和中间结果动态决定。 Anthropic 对这个区别说得很清楚:workflows 是 LLM 和工具通过预定义代码路径编排;agents 则是 LLM 动态决定自己的流程和工具使用。 这个方向对。Anthropic 的 Agent Skills 文档也把 skill 描述为模块化能力包,包含 instructions、metadata 和可选资源,比如 scripts、templates,Claude 会在相关任务中自动使用。 另一个官方指南也说 Skills 可以是由 instructions、scripts、resources 组成的文件夹 Context:这次对话/这次任务临时放进来的信息。 Memory:跨会话保存、以后还能拿出来用的信息。 Context 是模型当前这次任务能看到的信息,比如用户问题、系统指令、聊天历史、检索到的文档、工具返回结果等。Memory 是被长期保存、之后还能被取出来的信息,比如用户偏好、项目背景、历史决策、常用规则等。Memory 不是模型参数本身发生了变化,而是系统把相关历史信息保存下来,在需要时重新塞回 context。 5 个帖子 - 4 位参与者 阅读完整话题
工作的时候最怕手搓ppt了,最近看很多人都在用ai做ppt,佬们有什么好的思路吗,还是有什么好用的skills可以分享一下 1 个帖子 - 1 位参与者 阅读完整话题
现在有没有什么skill或者技巧 可以让ai生成程序对应的交互原型图的吗? 类似墨刀那种原型图的感觉 2 个帖子 - 2 位参与者 阅读完整话题
问一下佬友们 那些很牛的vibecoding是怎么配置出来的 有没有什么skill 或者github开源的这个写代码很厉害 有体系的 项目 1 个帖子 - 1 位参与者 阅读完整话题
想用来写周报啊一些东西的,Github上搜了一下似乎都是偏科研的比较多。 感觉生成出来的句子还是很僵硬啊 3 个帖子 - 2 位参与者 阅读完整话题
从Cursor出来就一直在用,一直都只是使用基本的功能,有啥好的skill推荐没 4 个帖子 - 2 位参与者 阅读完整话题
我一般是只用头脑风暴的,因为习惯了不懂脑子让他反问,但是最近我发现一个小小的东西他会执行很久并且我的5h一会到用完了。感觉理解不了为什么会这样,导致我现在直接plan来处理 自己来完善 4 个帖子 - 4 位参与者 阅读完整话题
各位佬友们,请教一下现在怎么写简历好一点,有没有哪个项目或者skill能写可编辑的,排版和内容都比较好的,或者codex能写好吗? 1 个帖子 - 1 位参与者 阅读完整话题
前言+思路来源 昨天我看论文的时候,看到一个很有意思的概念:“元编程”。其含义大概就是opus等处理完全没见过的编码语言问题时,会先将问题转化成python等他熟悉的语言脚本编写问题。然后再用脚本输出答案,而不是直接去编码,大大提高了正确率。 我就在想,对于ai来说,复杂任务的分析,是不是可以参考“元编程”的概念,再结合残差的先做一个基线,再在此基础上慢慢调优的想法,做一个复杂任务分析流程。 整体思路与实现的一些关键 先让ai将复杂问题转化成已知领域的问题,然后做一个基线的版本,再在此基础上调优,最后达到可交付版本的水准。 这样的话,也可以大幅度减少复杂任务分析时token的用量,即仅在一些关键节点时使用高性能模型,其他时候可用低性能模型。 我写了执行分工和任务等级判定模块,各位佬可以根据需求来写,包括如何判断等。 我是用的deepseek-v4-pro,所以我写的是一般都用思考等级“high”正常处理,仅在关键时刻用QQ发信息给我说要调“max”来进行更为复杂的处理。各位佬可以用不同的模型,我也测了用deepseek-v4-flash来处理一般问题,在复杂的时候提醒我用/model来手动切,效果也不错(我主要是嫌麻烦再加上deepseek真的便宜吧) 整体优化与规范化我让gpt-5.5帮我做的,skill文件分享在这里,各位佬根据需要来取,我的Agent是hermes的Agent,各位佬如果用的是别的Agent还请优化一下做个适配以后再用。 我没什么工程的经验,所以可能还有很多可以优化的地方,还请各位佬看看以后觉得有问题或者有可以优化的点的话还请告诉我,我会尽快去改的。 complex-task-protocol-v5.0.0-final.zip (4.3 KB) 笔者碎碎念 哦我的上帝,这deepseek的api也太便宜了,真的还有更有性价比的模型吗 参考论文: Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages (arXiv:2606.10933) Deep Residual Learning for Image Recognition (arXiv:1512.03385) 1 个帖子 - 1 位参与者 阅读完整话题
无论cc还是codex,上下文一多,双方理解会在某个时间产生出入 要做的不是纠正 试过无数次纠正 越纠正,屎山代码越多 /compact压缩上下文之后的智力也很不完美 最好就是拜拜之前写下交接文档,更精炼的是让写skill 之后/new,全新智力全满的ai又回来了 6 个帖子 - 5 位参与者 阅读完整话题
想问问各位佬友,有没有什么可以完成初步查新报告的skills?求推荐一个 1 个帖子 - 1 位参与者 阅读完整话题
创作这个精读skill其实是有些故事的,因为博主最近有一些需要精读论文的任务,搜遍全网感觉没有能满足我的需求的,所以开发了这个skill,希望能帮助到和我一样状况的佬友们,大佬轻喷。 简单来说,skill的名称是 paper-reading-tutor ,很明显,他是一个类似于 导师 教你阅读论文的skill,灵感来源于我从小到大学习的一个习惯。 没错,就是: 需要一个了解你,专业知识强的人手把手教你 。在这种情况下,我对于任何知识点都能够非常快速的上手,我相信一定有不少佬友和我一样,而这个教人的角色从 老师->同学->AI 逐步的演化了下来,以前不会的要问老师,后面上中学老师忙碌找不到人,就会问班上厉害的大佬,或者是请教同桌,现在这个时代,我觉得AI完全可以取代这个工作,扮演这个角色。 介绍一下skill的功能和模块: 支持本地 PDF、 arXiv / DOI / OpenReview等论文链接、Markdown / HTML / text 转换版、论文标题、PDF 加已有笔记、PPT、部分总结输入,简单来说覆盖了绝大部分的输入方式,最好使用PDF,因为有的地方需要图。 skill输出模板(按顺序): 标题 :正在读的部分是哪个section?原文位置在哪? 中文翻译 :这一部分会展示这一部分的原文翻译,对特殊名词会展示为xxxx(啊吧啊吧)这样的格式,可能会有点臃肿,但是对于新手来说是极好的,虽然我知道,最后所有的论文阅读都要回归到English的原文阅读,培养语感、写作能力、风格,但是对于新手来说,那都是后话了,到时候再去修改skill的侧重也来得及。 导读 :这部分是我设想的核心内容,也是这个skill中最重要的内容,在这部分,LLM会表现为一个mentor(导师),来一步一步的教你怎么阅读、知识点的内容、写作的特点等等…对于新手来说,最重要的不是读多少文章,而是能够在阅读的过程中,弄清楚里面的知识,并且搞清楚为什么某某顶会的作者要这么写?(写作的艺术),假如一篇文章能阅读完毕这些细节精华,比粗读10篇文章带来的收益都更多。 当然每一个人对于论文的要求都不一样,在这里我认为每一个人去定制化的修补、DIY属于自己的skill才是最完美的解决方案 问题 :这一部分是我自己的一些感悟理解,因为自己阅读一篇文章,不说一知半解了,就算是读明白,可能也还是有一些地方没有注意到,特别是对于新手而言,所以要LLM提出一些问题,不一定是要求你回答,也是给你提供一些新的思路,怎么样去用什么角度分析一篇文章的内容 纠偏 :这部分仁者见仁智者见智,有的人比较厌恶这么复杂的询问,因为他们基本上读一遍就全了解了,但是有的呆呆的(博主)就很需要来提醒一下自己,所以这部分各位佬友也可以根据自己的时间、心情、状态来进行跳过。 记录 :每次阅读完一段,LLM会帮助记录聊天和知识点的笔记,包括不太了解的部分,方便后续查看 skill还有些特点 : AI会自动判断这篇论文应该以一种什么级别的精读方式进行阅读 :这一部分说白了比较黑盒,但是默认分类规则是按照分区和CCF等级来进行划分的、会根据综述/方法文、引用来进行综合分析,有可能会将一些好文章筛选掉,此时用户需要针对这篇论文对自己的重要性进行定制化分析(老师给的?自己找的?AI找的?) 针对Method和Experiment部分会进行细读 :简单来说就是abstract、intro这些,会一大段一大段的讲解,但是到了method和exp部分这种重要的内容,会一小节小节的进行讲解分析,对于新手来说非常友好 图文同步 :阅读的过程中,会通过原PDF进行截图,将原文需要了解的图直接输出,方便阅读的效率,不用zotero什么的来回切换,同时 LateX 公式代码也会直接渲染出来,方便解析和阅读 保证所有的背景知识都是强制联网搜索验证 :所有的背景知识、以及不确定的信息,都是强制联网搜索的,所以基本上不会出现大问题 剧透 总体来说,都是方便读者去阅读的一些安排, 最后想和各位佬友说的是,我自己其实也是一个新手,所以站在新手的角度来说,这对我来说是最合适的,不仅仅是应付各种任务:组会、汇报… 更多的是对自己的提高(学术审美,风格,知识等等),同时也证明了此skill并不一定适合所有人,因为每个人的学习进度和要求都不一样, 我希望我的skill能作为一个粗糙的模板,启发不同的人去自定义,创造自己的学习方法 ,共勉。 paper-reading-tutor.zip (14.3 KB) 3 个帖子 - 3 位参与者 阅读完整话题
目前来说,就是图一个新鲜感,消费者折腾一通,结果得不到什么好处,让人很难有使用的动力。 我觉得,它要想真的变成生产力,应该推出专属的优惠活动。 要么和千问点外卖一样,每单在享受其他优惠的同时随机立减一两块钱。 要么就送tokens,9块9的咖啡可以送99万tokens,点的越多送的越多。哪怕是比较便宜的DeepSeek,也能够吸引不少人使用。 8 个帖子 - 8 位参与者 阅读完整话题
用了any的fable,然后用了自己的一个股市分析skill,里面有一个爬虫脚本来获取新闻流和市场数据的,让fable来生成收盘汇报总结,直接给 Error: Permission to use WebFetch has been denied. IMPORTANT: You *may* attempt to accomplish this action using other tools that might naturally be used to accomplish this goal, e.g. using head instead of cat. But you *should not* attempt to work around this denial in malicious ways, e.g. do not use your ability to run tests to execute non-test actions. You should only try to work around this restriction in reasonable ways that do not attempt to bypass the intent behind this denial. If you believe this capability is essential to complete the user's request, STOP and explain to the user what you were trying to do and why you need this permission. Let the user decide how to proceed 这也太道德了吧,我没让它写,就运行也能给触发这种机制,连对方服务器都没说啥 而且,还有一个很有意思的地方,我有一些逆向用的skill,我发个指令,看下skill库有什么技能,直接给黄字警告了 1 个帖子 - 1 位参与者 阅读完整话题
近日看到瑞幸上线了Skill, 它做的,就是把「点一杯咖啡」改造成 AI agent 能直接调用的工具。 flowchart A --> 2 个帖子 - 2 位参与者 阅读完整话题
(话题已被作者删除) 1 个帖子 - 1 位参与者 阅读完整话题
GitHub - affaan-m/ECC: The agent harness performance optimization system. Skills, instincts, memory, security, and research-first development for Claude Code, Codex, Opencode, Cursor and beyond. · GitHub 这个项目有大佬真实使用吗?效果怎么样?最终任务实现效果怎么样?费 token 不? 2 个帖子 - 2 位参与者 阅读完整话题
本科毕业一年面试一家公司,需要一个我写一个agent skill来试试水平,求论坛里的大佬帮帮忙指导指导 23 个帖子 - 16 位参与者 阅读完整话题