Python海量数据处理脚本大集合:pyWhat

pyWhat:精简海联数据,直达数据弱点要害- 精选真开源,释放新价值。

image

概览

pyWhat是Github社区上一款比较实用的开源Python脚本工具。它能够快速提取信息中的 IP 地址、邮箱、信用卡、数字货币钱包地址、YouTube 视频等内容。当你遇到了一串莫名其妙的文本,比如说“5f4dcc3b5aa765d61d8327deb882cf99”,而你又一头雾水的时候,你该怎么办?在pyWhat的帮助下,我们只需要询问what “5f4dcc3b5aa765d61d8327deb882cf99”,那么pyWhat就会告诉你你想知道的一切!pyWhat的任务就是帮助你识别目标数据,无论你提供的是文件还是文本,甚至是十六进制参数!不仅如此,pyWhat 还可对文件和目录进行扫描,通过递归搜索,快速获取核心信息,并对结果进行筛选、过滤、排序、导出等操作


主要功能

  • Pcap文件快速分析

假设你在一次网络攻击活动中获取到了一个.pcap文件,那么pyWhat将可以快速帮助你识别下列信息:

所有的哈希信用卡卡号加密货币地址
社保号码

只需几秒钟,pyWhat就可以快速帮助你识别目标文件中的关键数据。

image

  • 如何使用

    $ pip3 install pywhat

    installs optional dependencies that may improve the speed

    $ pip3 install pywhat[optimize]

    $ brew install pywhat

  • 漏洞赏金

你可以使用 PyWhat 来扫描一些可以通过漏洞赏金计划赚钱的东西,例如:API 密钥、Webhook、证书

和更多的事务。使用以下命令运行 PyWhat:

pywhat --include "Bug Bounty" TEXT

示例:GitHub 存储库 API 密钥泄露

  1. 下载组织的所有 GitHub 存储库;

  2. 搜索任何可以作为赏金提交的内容,例如 API 密钥;

    Download all repositories

    GHUSER=CHANGEME; curl “https://api.github.com/users/$GHUSER/repos?per_page=1000” | grep -o ‘git@[^"]*’ | xargs -L1 git clone

    Will print when it finds things.

    Loops over all files in current directory.

    find . -type f -execdir pywhat --include ‘Bug Bounty’ {} ;

示例: 扫描所有网页以寻找赏金

# Recursively download all web pages of a site
wget -r -np -k https://skerritt.blog

# Will print when it finds things.
# Loops over all files in current directory.
find . -type f -execdir pywhat --include 'Bug Bounty' {} \;
  • 排序、导出

排序:可以使用pyWhat对输出进行排序,使用what --help获取更多信息。

what -k rarity --reverse TEXT

导出:可以使用pyWhat导出为 json what --json,并且可以使用 将结果直接发送到文件what --json > file.json。

无边界模式:pyWhat具有一种特殊模式,用于匹配字符串中的可识别信息。默认情况下,它在 CLI 中启用,但在 API 中禁用。使用what --help或参考API文档https://github.com/bee-san/pyWhat/wiki/API了解更多信息。

  • 性能比较与优化

在性能比较与优化方面,PyWhat库在文本解析任务中展现了出色的效率。以下是一些性能测试和优化建议,以帮助开发者更好地了解和提升PyWhat库的性能。

import time
from pywhat import what

# 生成一个包含大量文本的列表
texts = ["文本内容" + str(i) for i in range(100000)]

# 记录解析开始时间
start_time = time.time()

# 在大量文本上执行解析操作
for text in texts:
    result = what(text)

# 记录解析结束时间
end_time = time.time()

# 计算解析时间
elapsed_time = end_time - start_time
print(f"解析 {len(texts)} 个文本的总时间: 0.0545 秒")
  • 多语言支持

PyWhat库支持多种语言,使其更具国际化的特性。用户可以选择在文本解析中使用的语言,以确保对不同语种的支持。以下是一个使用语言选择的示例:

from pywhat import what

text = "明天天气如何?"
result = what(text, lang="zh")  # 选择中文语言解析

print(result)
  • 自定义规则

PyWhat库允许用户定义自己的规则,以适应特定的文本解析需求。这对于处理特殊格式或特定领域的文本非常有用。以下是一个自定义规则的示例:

from pywhat import what, Rule

text = "根据自定义规则解析文本"
rule = Rule("自定义规则", ["自定义", "解析"])
result = what(text, custom_rules=[rule])

print(result)

信息

截至发稿概况如下:

  • 软件地址:https://github.com/bee-san/pyWhat

  • 软件协议: MIT license

  • 编程语言

语言占比
Python99.7%
Dockerfile0.3%
  • 收藏数量:6.4K

pyWhat是一款强大的开源Python工具,它在信息识别与数据分析领域展示了高度的灵活性与实用性。该工具能够智能解析文本或文件中的各种关键信息,比如IP地址、电子邮件、信用卡号乃至加密货币钱包地址等,显著提升了从复杂数据中提取价值的效率。对于安全研究人员而言,其快速分析Pcap文件的能力,以及在漏洞赏金狩猎场景中的应用尤为突出,能够帮助用户自动化发现API密钥、Webhook配置等敏感信息,有效促进网络安全的维护。

随着数据量的爆炸性增长,如何进一步优化像pyWhat这类工具的性能,使其在保持高速解析能力的同时,又能兼顾资源消耗与跨平台兼容性?此外,用户自定义规则的潜力如何被充分挖掘,以应对日新月异的互联网信息格式与安全挑战,也是值得深入探讨的话题。

各位在使用 PyWhat 的过程中是否发现了什么问题?热烈欢迎各位在评论区分享交流心得与见解!!!


声明:本文为辣码甄源原创,转载请标注"辣码甄源原创首发"并附带原文链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/764242.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

elementUI 年份范围选择器实现

elementUI 不支持年份范围的选择器,依照下面的文章进行修改和完善 el-year-picker; element日期选择范围、选择年份范围_elemet 两个日期 选择的年份范围必须在三年之内-CSDN博客 el-year-picker 组件: 依赖包:moment 属性&…

赛灵思FFT的IP核——非实时模式 Non real time

一、IP核配置 使用非实时模式配置如下 二、时序 三、资源消耗 在implement查看两者的资源消耗差不多

怎么测试远程服务器能否连通

远程服务器连接测试的方法很多,下面简单介绍下其中两种方法。 ping命令 按WINR快截键,打开“运行”对话框,输入cmd,回车,打开命令提示符。 输入ping IP地址或ping 域名即可,如ping360服务器通不通&#xf…

前端接入chatgpt,实现流式文字的显示

前端接入chatgpt,实现流式文字的显示 业务需求: 项目需要接入chatgpt提供的api,后端返回流式的字符,前端接收并实时显示。 相关技术原理: 1. JS中的Stream流: 在JavaScript中,使用Stream流通常指的是处理数据流的…

RK3568驱动指南|第十五篇 I2C-第172章 I2C 驱动框架编写

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

吃瓜Llama3-V之余,看多模态大模型架构演变!

今天最大的瓜莫过于:斯坦福 Llama3-V PK 清华 MiniCPM-Llama3-V-2.5,详细证据: https://github.com/OpenBMB/MiniCPM-V/issues/196吃瓜之余,来看一下多模态大模型架构演变! 一篇优秀的论文综述了多模态AI架构——包含…

无线领夹麦克风哪个牌子好,口碑最好的麦克风品牌推荐!

自媒体的兴起极大地推动了音频设备技术的发展,尤其是麦克风,它已成为自媒体创作中不可或缺的工具。从早期的新闻采访到当下流行的网络直播和Vlog,麦克风的应用场景不断扩展。一个视频的音频质量直接影响观众的观看体验,因此&#…

使用Netty框架实现WebSocket服务端与客户端通信(附ssl)

仓库地址: https://gitee.com/lfw1024/netty-websocket 导入后可直接运行 预览页面 自签证书: #换成自己的本地ip keytool -genkey -alias server -keyalg RSA -validity 3650 -keystore D:\mystore.jks -ext sanip:192.168.3.7,ip:127.0.0.1,dns:lo…

【存储】相关内容

【存储】相关内容 1. 存储类型1. 块存储2. 文件存储3. 对象存储4. 三种存储类型对比 2. 常见的存储分类1. DAS2. SAN3. NAS4. 存储分类分析比较 3. 一些存储的概念1. LUN2. volume3. HBA4. iSCSI 1. 存储类型 块存储和文件存储是我们比较熟悉的两种主流的存储类型,…

《昇思25天学习打卡营第21天 | 昇思MindSporePix2Pix实现图像转换》

21天 本节学习了通过Pix2Pix实现图像转换。 Pix2Pix是基于条件生成对抗网络(cGAN)实现的一种深度学习图像转换模型。可以实现语义/标签到真实图片、灰度图到彩色图、航空图到地图、白天到黑夜、线稿图到实物图的转换。Pix2Pix是将cGAN应用于有监督的图…

JavaSE--基础语法--类和对象(第二期)

(一).面向对象的初步认知 1.1什么是面向对象? Java是一门纯面向对象的语言(Object Oriented Program,简称OOP),在面向对象的世界里,一切皆为对象。面向对象是解决问题的一种思想,主要依靠对象…

新手使用超市收银系统应该注意哪些问题?

大部分小型超市都没怎么使用过智能收银系统,都是采用的传统手工收银方式,盘点、进货、库存也都是靠手工记录,完全没有接触过智能收银系统带来的优势和便利。超市收银软件特别是小区里面的超市,就跟传统的夫妻便利店的营销模式差不…

教育心理学期末考试重点

人本主义学习理论 人本主义主张,心理学应当把人作为一个整体来研究,而不是将人的心理肢解为不完整的几个部分,应该研究正常的人,而且更应该关注人的高级心理活动,如热情、信念、生命、尊严等内容。人本主义的学习理论…

【C++】使用C++在线程中动态记录数据到外部文件

在现代软件开发中,多线程编程已成为处理并发任务、提高程序性能的重要手段。而在多线程环境下,如何有效地管理和记录数据,尤其是将动态生成的数据安全地写入外部文件,是许多应用程序必须面对的问题。本文将深入探讨如何在C中使用多…

【运维】Windows server 2022 开启 telnet 功能

控制面板》启动或关闭Windows 功能 仪表盘》添加角色和功能》功能》telnet客户端

python-糖果俱乐部(赛氪OJ)

[题目描述] 为了庆祝“华为杯”的举办,校园中开展了许多有趣的热身小活动。小理听到这个消息非常激动,他赶忙去参加了糖果俱乐部的活动。 该活动的规则是这样的:摊位上有 n 堆糖果,第 i 堆糖果有 ai​ 个,参与的同学可…

全平台7合一自定义小程序源码系统功能强大 前后端分离 带完整的安装代码包以及搭建教程

系统概述 这款全平台 7 合一自定义小程序源码系统是专为满足各种业务需求而设计的。它整合了多种功能,能够在不同平台上运行,为用户提供了全方位的体验。无论你是企业主、开发者还是创业者,这款系统都能为你提供强大的支持。 代码示例 系统…

MATLAB code 生成C代码样式

Matlab code 生成C代码需要以下产品: MATLABMATLAB CoderC 编译器 MATLAB Coder 将查找并使用支持的已安装编译器。 可以使用 mex -setup 更改默认编译器。 在本地工作文件夹中创建文件 创建一个本地工作文件夹,例如 c:\ecoder\work。创建包含以下代…

【Python】Python的安装与环境搭建

个人主页:【😊个人主页】 系列专栏:【❤️Python】 文章目录 前言Python下载环境配置测试环境变量是否配置成功配置环境变量 运行Python交互式解释器:命令行脚本集成开发环境(IDE:Integrated Development E…

电脑IP地址自动获取:操作指南与优势分析

在数字化时代,网络连接已成为我们日常生活和工作中的重要组成部分。而在建立网络连接的过程中,IP地址的设置无疑是至关重要的一环。IP地址,作为网络设备的唯一标识,其设置方式直接影响到网络的稳定性和安全性。本文将详细介绍如何…
最新文章