用于电子邮件捕获的元编程 Python 脚本

Metaprogramming Python Script for e-mail Capture

本文关键字:编程 Python 脚本 电子邮件 用于      更新时间:2023-10-16

如何修改下面的代码以捕获所有电子邮件而不是图像:

import urllib2
import re
from os.path import basename
from urlparse import urlsplit
url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)
# download all images
for imgUrl in imgUrls:
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass

需要从一系列网站中获取目录。我使用 C++ 为 Unix 创建代码,方法是多次调用.py文件,然后每次将其附加到现有文件中。

解析/验证电子邮件地址需要强大的正则表达式。你可以在谷歌上寻找那些。我向您展示了一个简单的电子邮件地址解析正则表达式。

emails = re.findall('([a-zA-Z0-9.]+@[a-zA-Z0-9]+.[a-zA-Z]{2,3})', urlContent)

这只是一个基本的例子。您需要使用功能强大的。