Watchman Mac版是Mac平台上的一款易于使用的网站存档工具。Watchman Mac版可以监控整个网站、部分网站或单个页面,可以为多个站点/页面设置配置,安排每小时,每天,每周,每月扫描。
软件功能
对任何更改、可见文本、源代码或页面资源的更改发出警示,查看并能够演示页面在特定日期的外观。
注意竞争对手的页面/站点的每一个变化,本地运行,而不是云服务。拥有自己的数据。
保存一个归档文件,包括对页面、图像、样式表和js的所有更改,查看历史页面的“活”版本,而不是屏幕截图。
在页面的不同版本之间切换以进行比较,将历史页面导出为图像或其所有文件的集合。
软件特色
1、监视整个网站,网站的一部分或单个页面
2、设置多个站点/页面的配置
3、计划每小时,每天,每周,每月扫描
4、收到任何更改,可见文本,源代码或页面资源更改的警报
5、能够演示特定日期页面的外观
6、注意竞争对手页面/站点的每一次更改
7、在本地运行,而不是云服务。拥有自己的数据。
8、保留存档*,包括对页面,图像,样式表和js的所有更改
9、查看历史页面的“活版”版本,而不是屏幕截图
10、在页面版本之间切换以进行比较
11、将历史页面导出为图像或所有文件的集合
12、导出整个站点,保留所有文件在给定日期的原样,或进行处理以制作可浏览的站点本地副本。
使用说明
1、网站和设置标签
这些设置控制实际的扫描或爬网。如果要扫描整个站点(即同一域中的每个页面),则可以忽略此选项卡。可能需要调整一些设置才能正确扫描您的网站,或者您可能想使用黑名单/白名单将扫描限制在网站的特定部分。
请注意,引擎具有“关闭但不启动”规则。即,如果您从诸如peacockmedia.software/mac/webscraper之类的“目录”中开始,则扫描将自动仅包括/webscraper中的页面。
黑名单和白名单规则允许您设置规则以控制扫描范围。您可以设置规则,以使扫描将忽略与特定字符串匹配的链接,或者“仅跟随”与特定字符串匹配的链接。(如果您想将扫描范围限制在某个目录中,则无需设置规则-请参阅上面有关“关闭但不能打开”规则的说明)。您输入的字符串是“部分匹配”。不是正则表达式,尽管您可以使用某些字符,例如*表示“任意数量的任何字符”,而$表示“末尾”。
线程数/限制请求:使用这些设置来“限制”或限制爬网速度。
线程控制可以同时打开多少个请求。默认值为12,如果服务器可以应付,扫描将很快运行。最大值为50,但实际上,该控件在超过特定点后几乎没有差异。如果速率过高,某些服务器可能会在一段时间后停止响应。将此滑块移到最左边将把扫描限制在一个线程内,即在发送下一个响应之前先接收并处理每个响应。
这是对汇率的粗暴控制。使用速率限制可能更好(请继续阅读…)
将请求数限制为每分钟X:如果您使用此控件,引擎将更智能。它仍将使用少量线程,但会引入计算的延迟,以使请求的总数不超过您每分钟设置的数目。
如果查询字符串中的虚假信息或特定的会话ID导致扫描运行的时间比其应有的运行时间长得多或永远持续,则可能需要忽略查询字符串。
将根域的子域视为内部域可让您决定是否在扫描中包括子域,例如blog.peacockmedia.software
渲染页面(运行js)如果页面需要javascript来填充部分或全部内容,它可能会在禁用了javascript的浏览器中显示其“noscript”文本,这可能是Scrutiny所看到的。如果您的站点要求打开javascript,则Watchman可以在扫描页面之前运行javascript。
如果您的页面包含动态内容,即在浏览器中加载页面然后加载内容时,这也很有用。在这些情况下,页面可能似乎已正确存档,但是稍后查看时,会显示新内容。“呈现页面”功能可能会在页面存档时“修复”该内容。
扫描会慢得多,并且会占用更多资源,因此只有在绝对确定有必要的情况下,才使用此选项。
请注意,将执行脚本,该脚本通常在页面加载时运行,但是Watchman无法执行用户操作,例如单击菜单或通过JavaScript搜索链接来进行拖网。
尝试身份验证Watchman可以检查某些需要身份验证的站点。请注意,启用此设置可能会损坏您的网站,包括删除页面。
对真的。一些内容管理系统具有用于管理页面(包括删除页面)的按钮,这些按钮看起来像到Watchman的链接。我不得不说这是因为它曾经发生过。
如果您要“尝试身份验证”,请采取以下预防措施和好主意:
-尝试通过使用“不检查包含的链接”来排除此类控件
-确保您不扫描网站的“管理”界面
-使用仅具有“读者”权限的用户帐户登录
-确保备份了您的网站并准备好在最坏的情况下进行恢复
-将您的注销链接列入黑名单(即“忽略”)也很重要,例如,设置一条规则,规定“忽略包含注销的网址”(或随你)。
计划该应用程序无需运行,它将在计划的日期/时间启动,运行扫描,然后执行您选择的任何完成操作。
从2.9.0版开始,如果重叠,Watchman可以对计划的扫描进行排队。但是,如果可以的话,请尝试安排您的日程表。一次仍然只能运行一个。
记得在更改时间表后按“提交”,这包括切换回“无”。
筛选在发现并提取每个页面后,此功能才起作用。在Watchman检查自上次扫描以来页面是否已更改之前,此对话框中的过滤器开始起作用。因此,例如,如果您要忽略对导航器/页眉/页脚的任何更改,这将很有用。或者,如果您希望在页面的特定部分发生更改时发出警报。
警报选项/警报时间…。此对话框可让您决定Watchman会向您发出哪些更改。例如,您可以指定源代码或可见文本。您可以定义“可见文本”以包括页眉,页脚和导航标签,替代文本。您也可以选择收到有关图像,css和js等资源,pdf文档甚至页面响应代码的更改的警报。
请注意,与“筛选器”选项不同,这些选项仅在显示警报时才起作用。这些内容仍将在归档和更改日志中进行输入。要完全忽略某些更改,必须使用“过滤器”对话框。
警报类型您可以选择是查看弹出警报(也会弹出停靠图标)还是通知中心横幅。或根本没有警报(更改仍然保存到归档文件并记录下来)。该按钮当前打开“首选项”,这是“警报类型”按钮所在的位置。
扫描历史记录为您提供了对该网站进行的所有扫描的简单概述。有关更多详细信息,请参见“更改”选项卡。
2、变更标签
在此可以看到自上次扫描以来的更改列表。已更改的所有页面或资源(取决于“过滤器”设置)将在此处列出。左右箭头按钮使您可以将视图切换到上一次扫描期间发现的更改,然后再切换到之前的扫描。
“原因”列将给出诸如“更改为可见文本”或“更改为源代码”之类的原因。这些显然将取决于在“站点和设置”选项卡上的“警报选项”中选中了哪些选项。
原因是“更改为可见文本”或“更改为源代码”,Watchman可以在两窗格的“前后”窗口中显示文本/代码并突出显示更改。右键单击(或按住Ctrl键单击)表中的项目,或选择它并使用“比较”按钮(右上角)。请注意,此功能当前受到限制。如果文本/代码中有多个更改,并且它们相距很远,则将从第一个更改的开始到最后一个更改的结尾突出显示一大段文本。
如果原因是图像或文档已更改,则可以再次以相同的方式并排查看“之前”和“之后”-右键单击/按住Ctrl键单击或“比较”按钮。
3、存档浏览器标签
在这里,您可以浏览存档,以查找在“站点和设置”选项卡中选择的站点。它具有拆分视图。左侧是您的页面列表。右侧就像一个网络浏览器,它将显示所选日期显示的所选页面。
请注意,页面列表是可扩展的。在每个页面下方,您将看到一个日期列表。这些日期不会显示执行扫描的每个日期,而只会显示该页面更改的日期。您必须选择一个日期,然后才能在浏览器中看到任何内容。
如果列表中有很多页面,则可以使用搜索框查找特定的网址。
导出页面为…此按钮允许您导出正在查看的页面。您可以选择导出图像或包含组成该页面的文件的文件夹。在后一种情况下,导出的文件将与提取时的文件完全相同,并具有其原始文件名。
导出整个网站是一项强大的功能。它允许您导出整个网站*它出现在某个日期*。显然,如果仅进行一次扫描,则只有一个日期可供选择。但是Watchman旨在重复扫描站点并建立档案。
导出整个站点将导出与特定日期有关的存档“切片”。首先,您必须选择一个日期。除了选择日期外,还有一个快捷按钮,它将选择最新扫描。您还需要选择是要“处理”文件,以便可以在Web浏览器中离线浏览文件,还是“保留”文件并完全按照获取的方式导出文件。
启用了javascript此按钮选择是否在浏览器窗格中启用javascript。某些页面要求将此功能打开才能正确显示。
请注意,如果仅当在浏览器中启用javascript时内容才能正确显示,则可能会发现页面是动态生成的。这意味着,每当您查看存档页面时,您将看到的是当前内容,而不是历史内容。要“修复”已存档的页面,您可能需要在“站点和设置”>“渲染页面(运行js)”处于打开状态(以便在扫描时呈现页面)的情况下进行扫描,然后在浏览器中关闭“启用javascript”功能。
浏览器/源代码只是在Web浏览器视图和源代码视图之间切换存档浏览器。在后一种情况下,您将看到获取时的源代码(可能会在浏览器中对其进行修改,以便可以脱机查看页面,但看不到修改后的代码。)
4、优先
在这里您将找到一些全局设置。
警报类型在下面的站点和设置中进行描述。
非UI模式或“无头”模式。当计划的扫描开始时,此模式不会打开窗口,只会显示状态栏图标/菜单。如果您安排扫描计划在您可能正在工作且不想中断应用程序启动时启动,则此功能很有用。
用户代理字符串您可以更改用户代理字符串,以使Watchman看起来像是服务器的浏览器(称为“欺骗”)。从下拉菜单中选择一种常规浏览器,或粘贴自己的一种。
如果服务器提供的网站版本与移动浏览器不同,并且您要对该版本进行存档,则使用移动浏览器的UA字符串将很有用。
导出/目录url默认文件名如果页面具有类似https://peacockmedia.software/mac/scrutiny/的URL(其中“scrutiny”是目录),则页面将在名为“scrutiny”的目录中创建出口。而且显然它需要使用文件名在本地保存。“index.html”是默认设置,但您可以根据需要进行更改。请注意,扩展名为.php的页面将添加.html,因为它们不再是php文件,而是固定的html。
额外的js渲染时间此设置适用于“渲染页面/运行js”网站设置。如果您的页面需要时间来动态获取内容并显示它,则可能需要增加此设置,以确保在Watchman捕获呈现的内容之前所有这些操作都已完全完成。