标签: AI | Han's Blog

AI代码未读

XHS Agent 是一个面向小红书内容创作者的 AI 自动化运营工具。根据用户设定的运营目标，它能自动完成笔记文案生成、AI 配图（支持海报与真实照片两种风格）、参考图片素材管理、7 天发布计划制定，并通过 APScheduler 定时发布到账号，全程无需人工干预，同时支持 WxPusher 微信通知和多账号 Web 管理界面。项目核心采用多级 AI 编排流水线：第一阶段由 text_service 调用 LLM 生成标题、正文、标签，并决策图片风格；第二阶段 prompt_agent 从预设模板中优化提示词；第三阶段 image_service 负责生成图片。海报模式特别使用串行生成策略，将第一张图作为风格锚点，确保多张图片色调、排版高度一致；真实照片模式则直接并发以保留多样性。参考图片系统允许用户按风格、人物、产品、场景、品牌五类上传素材，由 GLM-4.6V 视觉模型自动标注，注入上下文以提升品牌贴合度。技术栈基于 FastAPI + aiosqlite 异步后端、React + Ant Design 前端、uv 包管理与 Docker 一键部署，精准解决人工运营中高频、高质、风格一致的痛点。

逆向 Python AI 开源代码 2026-02-24

AI代码未读

攻克腾讯 TCaptcha 滑块验证码：纯 HTTP 协议逆向实战

本文记录了一次对腾讯 TCaptcha 滑块验证码的完整逆向工程实践，以粉笔教育登录流程为研究对象，目标是通过纯 HTTP 协议实现全自动化破解，不依赖 Selenium 或 Playwright 等浏览器自动化工具，最终实现 100% 通过率。核心挑战包括：完整还原 TCaptcha 三阶段协议、优化 NCC 模板匹配算法计算拼图块亚像素级位置、高效求解 PoW 工作量证明，以及执行高度混淆的 TDC.js 虚拟机并仿真真实用户轨迹。文章首先通过 HAR 抓包分析业务风控流程：发送短信接口触发 430 状态码返回 contextId，前端弹出腾讯验证码 iframe，用户验证后获取 ticket 和 randstr，提交 captcha/check 接口解除风控。验证码系统与业务系统解耦，可独立破解后提交凭证。随后还原了前端 RSA/ECB/PKCS#1 v1.5 加密逻辑（手机号+时间戳），并用纯 Python 实现兼容的加密函数。整体方案涵盖协议分析、图像处理、算法优化、PoW 求解和 JS 虚拟机执行等多环节，构建出一套稳定、可工程化的纯 HTTP 自动化破解解决方案。

爬虫逆向 Python AI 代码 2026-02-17

AI代码未读

抖音数据分析MCP开发

Douyin MCP 是一个专为 AI 助手打造的本地化数据服务桥梁，通过 Model Context Protocol (MCP) 协议打破信息壁垒，赋予大模型直接检索和分析抖音海量数据的能力。该项目的核心突破在于摒弃了传统的高延迟外部签名服务器方案，巧妙利用 Python 嵌入式 V8 引擎（py-mini-racer）在本地进程内完全攻破了抖音最核心的 a_bogus 反爬虫防线，结合现代 Python 异步生态构建了一个高稳定、易部署的数据访问架构。

逆向 Python AI 开源 2026-02-02

AI代码未读

Cursor无限Max模型

本文介绍了一种通过修改Cursor客户端本地代码，将Claude 3.7模型的上下文窗口提升至200K的方法，从而实现类似Max版本的体验。具体做法包括：在`workbench.desktop.main.js`文件中修改`getEffectiveTokenLimit`函数，将返回值设为200000，实现所有模型或指定模型的上下文窗口扩展；修改`getModeThinkingLevel`函数，将思维深度设为最高；调整UI显示，使普通Claude 3.7模型在界面上显示为“MAX”并应用高亮样式。文章强调，这些更改仅影响本地客户端显示和行为，实际API调用和计费仍受Anthropic官方限制，无法绕过API密钥或服务器端的真实限制。最后提醒用户修改前做好备份，并注意这些更改不会改变Claude的底层功能。

逆向教程 AI 前端 2025-05-13

AI随笔未读

DeepSeek 开源 FlashMLA：高效 MLA 解码新时代

DeepSeek发布的FlashMLA是一款为Hopper GPU设计的高效多头潜在注意力解码内核。它支持BF16计算、采用分页KV缓存技术（块大小64），并在H800 GPU上实现了3000 GB/s内存带宽和580 TFLOPS计算性能。该项目主要优化变长序列推理，可显著降低显存占用和计算开销。FlashMLA的主要应用场景包括大语言模型推理、机器翻译、语音识别和推荐系统等领域。它能加速Transformer计算，提高推理吞吐量，优化长文本处理，降低延迟。该项目受到FlashAttention 2&3和CUTLASS的启发，是2025年AI计算优化领域的重要突破。项目已开源，开发者可通过简单的Python安装命令快速部署使用。这一技术创新将为依赖GPU计算的企业和开发者带来显著的性能提升，推动AI计算效率迈向新的高度。

深度学习资讯 Python AI 开源精神开源 2025-02-24

随笔未读

DeepSeek 开源周：他们正在发布什么？

DeepSeek启动了为期五天的开源周活动，计划每天发布一个核心组件。目前已发布了Fire-Flyer AI-HPC研究论文和部分核心仓库。该论文介绍了一种软硬件协同设计框架，通过使用Fire-Flyer 2方案和10,000张PCIe A100 GPU，实现了接近DGX-A100的性能，同时将成本减半、能耗降低40%。论文还介绍了HFReduce通信优化技术，以及包含HaiScale、3FS和HAI-Platform的软件堆栈。在GitHub开源计划方面，DeepSeek已发布核心推理引擎和分布式训练框架两个仓库，未来三天将继续发布数据处理与预处理工具、模型微调与部署工具，以及完整推理系统与应用示例。DeepSeek选择开源的目的是降低AI研发门槛、促进知识共享、推动AI技术应用，希望通过社区协作推进AGI研究和工程发展。所有更新将在GitHub和Twitter(X)平台同步发布，欢迎开发者关注和参与。

资讯 AI 开源深度学习 2025-02-21

随笔未读

xAI发布Grok 3：全球最强AI模型免费开放，性能超越GPT-4o

马斯克的xAI公司发布了全新AI模型Grok 3并宣布免费使用。Grok 3在多项基准测试中展现出超强性能，在数学推理、代码生成和多模态理解等方面超越了Gemini 2 Pro、Claude 3.5和GPT-4等竞品。其推理能力优于主流大模型，并在ChatBot Arena榜单上首次突破1400分，位居世界第一。 Grok 3的两大创新功能是DeepSearch和Think。DeepSearch是一个强大的AI代理，能快速整合信息并从复杂性中提取清晰结论；Think功能则增强了系统在数学、科学和编程任务中的推理能力。在DeepSearch功能测试中，以比特币在全球经济危机期间的表现分析为例，系统展示了出色的信息整合和分析能力。分析显示比特币在金融危机期间往往充当避风港，特别是在银行业不稳定时期表现突出。如2020年疫情期间，比特币在初期下跌后强劲反弹，表现优于传统市场；2023年银行业危机期间，其价格从2万美元上涨至3万美元。不过在不同类型的经济危机中，比特币的表现会有所差异。

AI 资讯 2025-02-20

代码未读

云端部署GPT-SoVITS

简介 GPT-SoVITS-WebUI 强大的少样本语音转换与语音合成Web用户界面。

AI 开源 GPT-SoVITS 教程 2024-09-17