学习如何大规模自动从任何网站收集产品数据,将其整理到 Google Sheets 中,并使用 AI 进行分析,同时让轮换代理(rotating proxies)为你解决访问屏蔽限制和速率限制。
网页数据是了解市场、跟踪竞争对手或部署高级分析时最有价值的资源之一。然而,由于访问限制或频率限制,大规模收集这些数据往往很快就会成为一项重大挑战。
这就是 Make 和 Oxylabs Web Scraper API 强强联手的原因。Make 充当自动化中枢,将数十种应用和服务连接到一个工作流中;而 Oxylabs 则通过内置的代理轮换和网页解析机制,确保网页数据访问的稳定性和可扩展性。
在这篇指南中,你将学会如何搭建一个包含以下功能的 Make 自动化场景: * 使用 Oxylabs Web Scraper API 从 Amazon 采集产品数据 * 自动将结构化结果保存到 Google Sheets * 在 Make 中使用 AI Agent 分析数据
在最后,你将收获一个功能齐全、可重复执行的自动化工作流,并能够将其套用到你自己的业务用例中。
为什么轮换代理对自动化至关重要
当你向网站发送重复极高的网络请求时,很容易触发各种反爬系统的封锁或频次限制。轮换代理通过在后台自动循环更换不同的 IP 完美解决了这个问题——让每一次数据请求看起来都像是来自不同真实用户的正常访问。在这种情况下,你应该寻找像 Oxylabs Web Scraper API 这样的硬核工具,它能够自动包揽代理池管理和网关轮换动作,将你的每一个请求路由通过一个巨大且高质量的代理池。这使得你的 Make 自动化场景能够安全地进行性能缩放,甚至在如亚马逊(Amazon)等拥有复杂反爬机制的站点上依然能保持极高的稳定性。
在 Make 中配置工作流
在卷起袖子开始搭积木之前,请确保你已经准备好了以下弹药: * 一个 Make 账号 (点击此处获取免费计划) * 一个 Oxylabs Web Scraper API 账号 (点击此处获取免费试用) * 一个用于连接到 Google Sheets 的 Google 账号 * (可选) Make 中 AI Agents 功能访问权限(在核心计划或30天试用中可用)一旦准备就绪,让我们从零开始构建。
第一步:创建一个自动化场景(Scenario)
如果你刚开始接触 Make,请先注册一个免费账号——它每个月附带 1,000 次免费的 Operation 操作额度。登录后:第二步:悬挂 Oxylabs 模块
在场景编辑器中,点击加号 (+) 图标添加你的第一个模块。搜索 Oxylabs 并选取其可用模块之一——例如,Scrape Amazon Search。如果你还没有 Oxylabs Web Scraper API 凭据,请在其仪表板认领您的免费试用额度。拿到凭据后,输入你的API账号和密码来 新建一个连接 (Create a connection) 。
接下来,配置模块参数。在此示例中,我们输入以下设定: * Query : Lenovo laptop * Geo location : 98104 (西雅图市中心的 ZIP 邮编) * Parse : Yes * Pages : 2
这些设置将指示原生爬虫在亚马逊上搜索“联想笔记本电脑”,将搜索结果本土定位到美国西雅图,并解析足足两页的结构化返回结果。最爽的是,跑此模块时,Oxylabs 将自动轮换 IP 代理并将结果解析为干净的 JSON 数据对,完全不需要你做任何手动代理配置的脏活儿。
第三步:加入 Set variable (设值变量) 工具
接下来,我们将把抓取的嵌套结果处理成一个单一干净的结构化数组。flattened{{flatten(map(map(map(1.results; "content"); "results"); "organic"))}}
这个神奇小公式会将所有页面中的所有自然搜索商品结果提取汇总为一个条目单数组。到这里你可以试运行一下看看提取的数据。
第四步:挂载 Iterator、Array Aggregator 以及 Google Sheets
虽然您可以将全量结果以 Bulk 操作粗暴地甩直接塞进 Google 表格中,但这不能灵活映射到特定列。取而代之,我们将挂载使用 Iterator (迭代器) 与 Array Aggregator (数组聚合器) 模块来进行更为精细的一行一行的数据规整。#### 4.1 挂载 Iterator
!Oxylabs scenario 7
* 将 Iterator 模块用线连上之前的 Set variable 工具。
* 将模块输入值设为 {{2.flattened}} 或者从项目弹出菜单中选中拉入 flattened[] 。
Make中模块的ID在画布是自增引用的,如果你中途新建删除过其它模块,请仔细比对数字核实引用的输入源是否正确。
#### 4.2 挂载 Array Aggregator
!Oxylabs scenario 8
添加一个 Array Aggregator,选择 Iterator [3] 作为 Source Module,其他设置参数暂时默认保存。
#### 4.3 挂载 Google Sheets !Oxylabs scenario 9 接上宇宙第一网表 Google Sheets 模块,并选中 Bulk Add Rows (批量新增行)。在这个例子中,让我们去自己的 Google Drive 新建一个包含下列格式标题的电子表格备用: * 表标题 : Amazon Search Results * Sheet 名称分表 : Organic * 列名集合 : ASIN, TITLE, PRICE, PRICE STRIKETHROUGH, RATING, REVIEWS COUNT, SALES VOLUME, IS PRIME, IS AMAZON'S CHOICE, BEST SELLER, SHIPPING, URL
!Oxylabs scenario 10 回到 Make 场景,使用 ID 定位器 将刚才建的好表格选择链接引入。
现在我们去禁用该模块内部设定的 "Map",并选择你起的新分表名称 (Organic),将 Column range 拉向 [A-Z], 并在 Rows 内直接键入填入数据池 {{4.array}} 或者鼠标点选面板上的 Array[]。
#### 4.4 稍作魔改 Array Aggregator 数据聚合器 !Oxylabs scenario 13 * 调头折返回 Array Aggregator。 * 在其 Target structure type 参数中, 选择 Rows (基于目标地:Google Sheets - Bulk Add Rows 模块)。 * 从 Iterator 中将每一个小标字段一一对应“映射”至大表当中事先设定的各个标头列。
你可以借助 Make 强悍的内置公式函数在发送入库之前去动态修补并清洗产品长条带参 URL。比如在这个环节加个 https://www.amazon.com 头缀,并删掉一切 /ref= 之类冗余没用的跟踪追尾参数:
https://www.amazon.com{{first(split(3.url; "/ref="))}}
!Oxylabs scenario 14 这样就能把尾部的所有废料删得干干净净,将清爽精炼直指腹地的原始链接保留在数据库内。
第五步:闭眼点火,开跑 (Run the scenario)
全管线拼装就位,直接执行整条链路。此时 Make 将打出一套完整连招:去看看你的那张表格,它现在绝赞无比,已囊括刚刚全自动搜索拔取来的干净的亚马逊全量商品矩阵。
第六步:套上 AI Agent 大杀器
既然现在手头已经建立了一个极其靠谱稳定的搜刮(Collecting)和落库(Organizing)管线,那我们就不客气进一步叠加火力,并直接拽入 Make 的 AI Agent 当场就把它们大卸八块进行深度硬核分析(Analyze)。#### 6.1 召唤出你的专属 AI Agent 第一步需要先把即将干杂活儿的 AI 小弟训练建出来。切记 Make 提供为期 30 天的大幅长线免费体验该 AI 功能,或者在核心计划(Core Plan)中随心不限量可用。 到侧边栏去大力点击 AI Agents ,在那选择 Create agent 创建一位全新代办,随手给它一个霸气侧漏的名字,选定你的基础认知大模型LLM提供商 (随便诸如 Google Gemini、OpenAI 这些随便玩)。
!Oxylabs scenario 15 紧接着掏出一段精准系统级催眠 Prompt (系统提示词) 去对它做全盘职责定位洗脑注入:
_# 角色设定及目标职责_ _你不仅是一名精通各项品类电子电商行业的终极顶流业务老辣助理,此时核心大目标全是对以上投喂的这些原初剥削产品数据进行全面诊断破译,要综合结合它们具体的特性差异、定价几何、备货货源,外加全局宏观投资价值回报情况,为我从中当场圈定找出年度极致划算的必杀优选Deal(Best Deals)。_
_# 硬性命令及工作规章守则_ _- 提供一份极具厚度有详实的硬核综合作战报告大盘,且特别点名标红出最佳突围之单品选项_
写完点击 Save ,立刻出师下山,此代理随时可以拿出来即插即甩放入你的其他场景流程之中。
#### 6.2 强行接入你的数据主干流 趁着场景界面打开,准备把刚刚新建出来的 AI 苦力挂上线。回退,点开开篇抓站的 Oxylabs 模块的参数把它的扫描 Pages(扫描页数) 大手一挥给老子直接放大扩量到 10。得喂它更多口粮资料才能做更猛的大局观推理。
接着在原来那个 Set variable 工具 和 Iterator 中间直接加配装插入一台凶狠强劲的 Router 路由器 组件。这一路由节点将会对数据作强势流分片并轨:第一管道按兵不动继续老老实实落库至表格;第二轨直接截留复制并发一份把全套内容抛丢扔进这位新派雇佣军的嘴里去。
!Oxylabs scenario 16
等我们兵分两路甩分差后,在新的节点尾上加扣这块名叫 Make AI Agents 的插件,选好上一步定制完毕这件带神旨加身的 AI。最后选择投交把被 Set variable 规整全套好的 flattened[] 数据输入流当场映射喂进去(或直接将 {{2.flattened}} 大字写在其 Messages 对白框里)。
最后收口打死,这股子情报必须有地方卸货落根,掉头回去这也就是跑去那个 Google 电子表库里再大开建一张名为 "Analysis"。回场景搜索拿出 Google Sheets 大哥选择用上它的 Update a cell 神圣一刺收场。照旧这会还是拉入你刚搞出来的Analysis小表并指好要落座在最顶最显眼的第一格大板座 (示例:A1),最后将价值输出映射这也就是这也就是输入赋值区 Value 字段填写回包信息变量源带走( {{7.response}})。
就此彻底定点合围闭环死控全局!下回当你启动跑动整个大系统流水线的时候。这整个流程它将如同一个全无疲惫之觉的猎手那般去大范围横扫横截这横跨这 10 页巨幅搜索网盘!全数截落下来的宝贝清单们全部塞存进最初底账系统供原始留备查证,同一时轨中,这浩如烟海的数据长龙早已奔赴并且灌爆到全自动的深算 AI 处理核心那里并且在眨眼这也就功夫吐产且回填给你最尖端锐利大报告!
下一步怎么玩?进阶升华
恭喜!到目前你已赤手空拳纯依托图形拖拉拽搞定了整个搜刮->清洗重造->再到智能剖析的闭门循环全自动网页数据大中台!但在真实商界兵家死斗大盘下你可拔高这也就是进可攻的深度还能更高一层:彻底拥抱且利用好 Make 系统本身的终极开放这不仅也就是随性灵变架构与 Oxylabs 超顶配网络智慧洞见,彻底建立及并且也构筑那最深不见底极为广茂的大数据引擎自动轴流并死死陪伴与助力你的各大商业阵盘实现史无前例全面超脱且狂飙的成长破峰进化这也就是这!