用于电子邮件捕获的元编程 Python 脚本
Metaprogramming Python Script for e-mail Capture
如何修改下面的代码以捕获所有电子邮件而不是图像:
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)
# download all images
for imgUrl in imgUrls:
try:
imgData = urllib2.urlopen(imgUrl).read()
fileName = basename(urlsplit(imgUrl)[2])
output = open(fileName,'wb')
output.write(imgData)
output.close()
except:
pass
需要从一系列网站中获取目录。我使用 C++ 为 Unix 创建代码,方法是多次调用.py文件,然后每次将其附加到现有文件中。
解析/验证电子邮件地址需要强大的正则表达式。你可以在谷歌上寻找那些。我向您展示了一个简单的电子邮件地址解析正则表达式。
emails = re.findall('([a-zA-Z0-9.]+@[a-zA-Z0-9]+.[a-zA-Z]{2,3})', urlContent)
这只是一个基本的例子。您需要使用功能强大的。
相关文章:
- 如何运行位于boost/libs/python/example/tutorial目录中的hello.cpp和Jamfil
- Pybind11:将元组列表从Python传递到C++
- 如何在c++中使用引用实现类似python的行为
- 是否可以通过C++扩展强制多个python进程共享同一内存
- 递归列出所有目录中的C++与Python与Ruby的性能
- 有一个打印语句的函数是一种糟糕的编程实践吗
- IPC使用多个管道和分支进程来运行Python程序
- 从python中调用C++函数并获取返回值
- Python 3.7 和 excess_args 的 SWIG 问题
- 如何在同时包含C++和Python的项目(多编程语言项目)中使用doxygen
- 如何将 Cython 生成的模块从 python 导入到 C/C++ 主文件?(C/C++编程)
- 用于电子邮件捕获的元编程 Python 脚本
- 需要一个在C/C++或Python中进行HTTP/HTML网络编程的库
- 使用 Python 编程的 32 位整数中有多少个'1'
- 如何在 C++ 或 Python 中以编程方式列出 DLL 的依赖项?
- 嵌入式Python在c++套接字编程
- 在嵌入式python 3中以编程方式定义包结构
- 2D游戏编程Linux, OSX,和Windows - c++ /Python/OpenGL
- Python:以编程方式调整.jpgs的大小
- gdb-python编程:如何编写代码,为C++类的每个方法设置断点