多步误差最小化 对比学习滥用隐私数据!中科院等发布 方法

新智元报道

编辑:LRST 好困

【新智元导读】 研究人员提出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模型间展现出强大的可迁移性。

多模态对比学习(如CLIP)通过从互联网上抓取的数百万个图像-字幕对中学习,在零样本分类方面取得了显著进展。

然而,这种依赖带来了隐私风险,因为黑客可能会未经授权地利用图像-文本数据进行模型训练,其中可能包括个人和隐私敏感信息。

最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本(Unlearnable Examples),可以建立带有保护的捷径.

然而,这些方法是为单模态分类任务设计的,在多模态对比学习中仍未得到充分探索。本文首通过评估现有方法在图像-标题对上的性能来探索这一背景,由于在该场景中缺乏标签,之前的无法有效地推广到多模态数据,并且在建立捷径方面的效果有限。

在本文中提出了多步误差最小化(MEM),这是一种用于生成多模态不可学习样本的新颖优化过程。它扩展了误差最小化(EM)框架,以优化图像噪声和额外的文本触发器,从而扩大了优化空间,并有效地误导模型学习噪声特征和文本触发器之间的捷径。

论文链接: https://arxiv.org/abs/2407.16307

代码链接: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

具体来说,采用投影梯度下降来解决噪声最小化问题,并使用HotFlip方法来近似梯度和替换单词,以找到最佳的文本触发器。

大量实验证明了方法的有效性,保护后的检索结果几乎是随机猜测的一半,并且它在不同模型之间具有高度的迁移性。本篇工作的论文和代码均已开源。

研究背景

近年来,随着多模态学习的兴起,研究者们对结合文本、图像和音频等多种数据类型的模型产生了浓厚的兴趣。

其中,多模态对比学习成为了这一领域的重要方法,如CLIP和ALIGN等模型利用对比损失训练,以增强图像和文本的相关性,进而减少人工标注的需求,并展示了在图像分类、生成等任务中的潜力。

然而,这些模型的训练依赖于大量的多模态数据,这些数据常常来自公开的数据集,如CC12M、YFCC100M和LAION5B,但这些数据集可能仍然不足,且可能包含大量敏感的个人信息,引发了对隐私泄露的担忧。

我们考虑了一个专注于生成多模态不可学习样本以应对与多模态对比学习相关的隐私风险的场景。在这种场景下,我们专注于图像-文本对作为代表性的多模态数据集。假设用户经常在社交媒体平台(如Facebook)上分享带有文本的个人照片,包括一些私人身份信息,如面孔、姓名、电话号码和地址。

目前,黑客试图从互联网上收集大量此类图像-文本对,并利用多模态对比学习技术训练或微调大模型,如图1的左半部分所示。

这些模型无意中捕获了用户的私人信息和面部特征,导致潜在的隐私泄露。保护者旨在通过对多模态数据进行不可学习的方法来防止这些敏感数据被未经授权利用。这些方法使在这种多模态不可学习样本上训练的模型无法访问用户的隐私特征,同时不妨碍用户在发布图像和文本后的社交互动,如图1的右半部分所示。

图1:Facebook上的帖子无意中会泄露了个人信息(如图左),但利用多模态不可学习样本可以保护数据可以防止未经授权的模型访问私人特征(如图右)

动机

最近的研究致力于通过不可学习样本(Unlearnable Examples)来防止图像分类中的数据未经授权使用。这些方法通过对数据施加细微扰动来阻碍模型学习图像特征,也被称为可用性攻击(availability attacks)或无差别的中毒攻击(indiscriminate poisoning attacks)。

它主要分为无代理模型攻击和基于代理模型的攻击,其中无代理模型攻击通过在像素级别生成噪声,而基于代理模型的攻击则通过代理模型生成特征级别的噪声。

然而,所有用于分类的无代理模型方法在多模态场景下都无法生成图像噪声,因为这些方法旨在为与某个特定类别相关的图像找到一系列特定的噪声模式,而图像-文本对数据中没有标签。

因此,只有基于代理模型的方法可以应用,我们扩展了两种典型的方法来生成不可学习的多模态示例(EM和UAP)。

The Error-minimizing Noise(EM)方法:

Untargeted Adversarial Perturbation.(UAP)方法:

尽管EM和UAP可以应用于图像-字幕对,但它们未能实现高效的保护,尤其是UAP。我们探讨了这些方法从图像分类到多模态对比学习有效性下降的原因。

在图像分类中,EM和UAP优化具有相同标签的图像,使其在特征空间中收敛,导致模型容易捕获这些附加噪声并学习与标签的相关性,如图2(a)所示。

图2:不同方法在传统分类和多模态对比学习中的比较。表示图像,是配对的标题。蓝色区域是在不可学习样本上训练的模型的预期决策边界

但在多模态对比学习中,为了有效地应用EM和UAP方法,优化的图像噪声的方向必须与文本的特征相关,导致图像特征变得要么接近要么远离这些特征。

然而,不同对的文本特征可能在图像–文本数据集中广泛分散。如图2(b)和(c)所示,与分类不同,模型更难捕捉字幕和EM和UAP生成的噪声之间的相关性。

在图2(c)中,UAP的学习决策空间更加复杂,因此其保护效果不佳。

方法

图3:多步误差最小化方法(MEM)的框架

由于图像-文本对的分散,基于代理模型的方法仍然无法实现有效的保护。一个直观的增强策略是同时优化图像和文本,以获得更大的优化空间,促进它们在特征空间中不同对的收敛。

因此,图像和文本集的优化特征表示呈现出相似的分布,便于模型学习它们的捷径,如图2(d)所示。

为此,我们以EM方法为基本框架,并提出在字幕前添加额外的短文本触发器来最小化对比损失,遵循对文本任务的对抗攻击的设置。我们的方法可以被概念化为一个三层迭代优化问题,类似于EM的多步过程。

具体来说,我们依次优化噪声δ和文本触发器t,以减少优化图像I + δ和优化文本T ⊕ t之间的对比损失,其中⊕表示可以在不同位置插入干净文本T的触发器。

为了简单起见,我们在本文中选择在文本的开头添加文本触发器。因此,我们的多步误差最小化(MEM)方法可以表述为:

通过参考EM中的方法依次迭代优化上述问题。使用投影梯度下降(PGD)来解决式中的噪声最小化问题。

值得注意的是,为了减轻噪声对干净字幕的过拟合,我们通过在批处理中打乱干净字幕并添加正确匹配的文本触发器来增强它们。因此,当面对语义错误的字幕时,这种生成的噪声可以更多地关注文本触发器而不是部分字幕。因此,我们可以根据以下迭代公式获得最优的δ:

对于文本触发器最小化问题,首先通过在所有输入的前面重复单词「the」或「a」来初始化触发序列。

此外,基于HotFlip优化文本触发器,通过梯度近似替换标记的效果。通过更新每个触发标记的嵌入,以最小化当前标记嵌入周围的CLIP损失的一阶泰勒近似:

最后,我们可以在候选标记的集合中使用束搜索来搜索每个最优文本触发器。我们考虑来自上式的前k个候选者,并在触发器的每个位置从前到后搜索,并使用当前批处理上的损失对每个束进行评分。

我们遵循Wallace等人的方法,并使用小的束大小进行高效计算。在图3中,我们可以看到使用我们的MEM生成多模态不可学习样本的框架。

实验效果

有效保护性

表1:在不同数据集上几种方法生成的不可学习样本的有效性比较

表1展示了它们在不同数据集上的检索结果。显然,UAP几乎无法为多模态数据提供任何保护,而EM则表现出一定程度的保护。

然而,我们的MEM始终为多模态数据提供强大的保护,将检索性能降低到几乎是随机猜测的一半。特别是MEM-5,由于其文本触发器更长,与MEM-3相比,在降低黑客模型性能方面取得了更大的效果。

图4展示了由不同方法生成的不可学习样本训练的训练损失下降曲线和在干净测试集上的检索Medr。从(a)中可以观察到,尽管EM使损失比正常训练下降得更快,但我们的方法MEM-3和MEM-5在第一个epoch时损失更小,这表明模型可以快速学习到捷径。

从(b)中我们发现,所有模型的Medr都比随机猜测时降低,但在不可学习样本上训练的模型停止学习得最快,达到了最差的检索结果,并且随着epoch的增加不会进一步学习得更好。以上观察结果与表1中的结果一致。

图4:训练损失和测试指标Medr的曲线变化记录

跨模型迁移性

表2:在不同模型架构上,基于ResNet50模型的MEM-3方法生成的不可学习样本的可转移性

我们假设数据保护是一个完全黑盒的设置,其中保护者不知道黑客模型的架构。因此,我们评估了在ResNet50代理模型上生成的MEM在不同黑客模型上的性能,包括ResNet101和ViT。结果如表2所示。我们发现这些样本可以成功地在不同模型之间转移,并能降低CLIP模型的性能。

可视化分析

图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况

图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图像,我们使用Grad-CAM来可视化模型的注意力,而对于文本,我们使用Integrated Gradients来可视化注意力。颜色越浅表示模型的注意力越高。

值得注意的是,对于图5(1),(2)和(3)中的模型都关注中心区域,这与字幕相关。

然而,图5(4)中由MEM - 3生成的样本训练的模型由于只学习了噪声特征,无法准确识别干净图像。同样在文本中,前三者中的模型都关注关键词「glass」,而后者中的模型将注意力放在前三个单词上,这可能是因为MEM-3总是优化噪声和前三个文本触发器来创建捷径。

这些可视化结果表明,EM和UAP在保护多模态数据方面效果不佳,而MEM具有明显的有效性。

图6:干净样本和MEM-3优化的不可学习样本在干净模型和中毒模型下的t-SNE可视化

我们在图6中可视化了正常模型下干净样本的特征分布以及MEM3在中毒模型上优化的不可学习样本的特征分布。我们用三角形表示图像特征,用圆圈表示文本特征,相同颜色表示数据集中五个相同但经过变换的图像及其对应的不同描述。

从(a)中我们可以观察到,在干净模型下,相同的图像和文本在内部聚集在一起,并且相应的图像-文本对彼此接近。

然而,在(b)中,相同的图像和文本出现了分歧,只有成对的图像和文本彼此接近。这表明我们的方法有效地促进了模型学习噪声和文本触发器之间的捷径。

案例探讨:人脸隐私保护

我们进行了一个案例研究,将我们的MEM噪声应用于一个现实世界的场景:保护社交媒体平台上的个人人脸图像和相关信息,如姓名。

我们使用PubFig数据库进行了实验,这是一个大型的现实世界人脸数据集,包含从互联网上收集的200个个体的58,797张图像。对于检索评估,我们随机选择每个名人的一张照片作为测试集,并使用所有剩余的图像进行训练。

为了进行真实的微调,我们更改了他们的名字,并提供了一组与该名字相关的文本模板用于字幕生成。随后,我们使用MEM生成不可学习的样本,并使用不同的黑客模型进行评估。结果如表3所示。

MEM可以防止这些微调模型学习人脸和姓名特征之间的相关性,从而阻碍在测试集上的准确人员检索。

表3:在不同预训练模型上,ResNet50微调生成的不可学习样本的保护效果

结语

在本文中,我们探索了多模态数据保护,特别关注图像-文本对,我们生成了多模态不可学习样本来防止被多模态对比学习利用。我们将先前的分类方法扩展到这个背景下,揭示了由于模态增加和数据分散而存在的局限性。

鉴于这些发现,我们引入了一种名为多步误差最小化(MEM)的新颖生成方法,它基于EM框架。MEM有效地在噪声和文本触发器之间建立了捷径,并展示了在不同黑客模型之间的可转移性。

此外,我们使用各种可视化工具验证了我们方法的有效性。我们的工作开辟了一个新的方向,预计将适用于其他模态对,如音频-文本和音频-图像对。

作者介绍

本文作者来自中科院信工所、南洋理工大学、新加坡国立大学和中山大学。作者列表:刘心玮,加小俊,寻源,梁思源,操晓春。

其中,第一作者刘心玮是中科院信工所博士生。通讯作者中山大学操晓春教授和和南洋理工大学的加小俊博士后研究。

参考资料:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io


叠前地震数据重建方法研究

霍志周

(中国石化石油勘探开发研究院,北京 )

摘 要 地震勘探的目的是为了获得地下构造的精确成像。 由于人为因素和环境原因,地震数据在空间方向上往往是不规则采样或缺失采样的,因此经常需要在空间方向对缺失的地震数据进行重建。 最小范数傅立叶重建方法是基于估算非规则采样地震数据傅立叶系数的方法,一旦准确求得这些系数,就可以通过傅立叶反变换将地震数据重建到任何合适的空间位置。 该方法的主要优点是既可以处理规则采样数据有空道的情况,也可以处理非规则采样的数据;该方法的缺点是无法重建含空间假频以及含空隙过大的地震数据。 针对含空间假频的地震数据重建问题,本文通过将最小范数傅立叶重建方法和多步自回归方法相结合,较好地克服了最小范数傅立叶重建方法的缺点。 通过对不同的理论和实际地震数据算例的验证,表明了该重建方法的有效性和实用性。

关键词 地震数据重建 最小范数反演 傅立叶变换 多步自回归

Research on Pre-stack Seismic Data Reconstruction Method

HUO Zhizhou

(Exploration and Production Research Institute,SINOPEC,Beijing ,China)

Abstract The objective of exploration seismology is to obtain an accurate image of the to human-related reasons and environmental circumstances,more often than not the seismic data can be irregularly sampled or missing sampled in spatial ,it often needs to reconstruct missing seismic data along spatial reconstruction with minimum norminversion is based on estimating the Fourier coefficients that describe the irregularly sampled seismic data,and once these coefficients have been obtained, seismic data can be reconstructed on any suitable spatial location via inverse Fourier main advantages of Fourier reconstruction are flexible,as it can not only handle regularly sampled data with gaps,but also can handle irregularly sampled disadvantage of this method is that the method can’t handle spatially aliased seismic data and seismic data with large this article,for reconstruction question of spatially aliased seismic data,Fourier reconstruction with minimum norminversion and multi-step autoregressive method is method overcomes the shortcomings of the Fourier reconstruction different theoretical and practical seismic data would be reconstructed using multi-step autoregressive method,that prove the effectiveness and practicality of this method。

Key words seismic data reconstruction;minimum norm inversion;Fourier transforms;multistep autoregressive

众所周知,地震数据的采集严重影响地震数据最终的成像结果,而地震数据采集中很常见的一个问题就是地震数据沿着空间方向是非规则采样或是稀释采样的。地震数据在空间方向上稀疏采样的原因主要是出于经济因素的考虑,稀疏采样比较经济,但意味着采集到较少的数据,而且会导致地震数据中含有空间假频,尤其是在3D地震勘探中。引起地震数据在空间方向上非规则采样的原因主要有:地表障碍物的存在(建筑物、道路、桥梁等)或地形条件因素(禁采区和山区、森林、河网地区等)、仪器硬件(地震检波器、空气枪、电缆等)问题引起的采集坏道以及海洋地震数据采集时电缆的羽状漂流等。在地震数据处理过程中,非规则采样和稀疏采样不但会引起人为误差,而且会对基于多道技术的DMO、FK域滤波、速度分析、多次波衰减、谱估计和波动方程偏移成像等方法的处理结果带来严重的影响,因此通过对原有的地震数据进行重建,使其包含的地球物理信息更加真实地反映地下地质体的地球物理特征,使得后续地震数据处理能够更好地满足对复杂地质构造进行精细刻画的要求,为油气勘探提供更有效的指示和帮助等具有重要的现实意义 。

基于傅立叶变换的地震数据重建方法不需要地质或地球物理假设,只要求地震数据是空间有限带宽的,并且计算效率高。傅立叶重建方法利用最小二乘反演估算非规则采样数据的傅立叶系数,如何更好地估算傅立叶系数是该方法的核心。一旦傅立叶系数被正确估算出来,数据可以重建到任意采样网格上。Duijndam等 将傅立叶重建方法应用于非规则采样地震数据的规则化上,并成功解决了参数选择等一系列问题。Hindriks和Duijndam 将该方法扩展到3D地震数据重建中。Liu和Sachhi 提出了最小加权范数插值的傅立叶重建方法,该带限重建方法利用自适应谱加权范数的正则化项来约束反演方程的解,将数据的带宽和频谱的形状作为带限地震数据重建问题的先验信息,因此得到了比传统的带限数据傅立叶重建方法更好的解,但没有给出好的反假频方法。Zwartjes和Sachhi 提出了使用非二次型正则化项的稀疏约束傅立叶重建方法,以改善地震数据含较宽的空道时的重建效果,并较好地解决了含有空间假频的地震数据的重建问题。傅立叶重建方法不但可以重建规则采样的地震数据,而且可以重建非规则和随机采样的地震数据,但是不能很好地重建含有空间假频的地震数据。

本文对基于最小范数解的傅立叶地震数据重建方法的研究分析,通过最小二乘反演方法得到傅立叶域的系数来进行地震数据重建。 为了改进最小范数傅立叶重建方法不能重建空道间距过大的地震数据和无法重建含有空间假频的地震数据的缺点,本文采用了最小范数傅立叶重建方法和多步自回归方法相结合的思想进行地震数据重建,该方法不但能重建空道间距大的地震数据,而且可以重建含有空间假频的地震数据。

1 最小范数傅立叶重建方法

傅立叶重建是从非规则采样数据上恢复信号的一种方法,它是基于采样定理的,也就是说一个带限的连续信号能够从规则采样数据中恢复。如果非规则采样信号的平均采样率超过Nyquist采样率,则非规则采样的信号也可以重建。在规则采样的情况下,离散傅立叶变换是正交变换。但是当采样是非规则时,傅立叶变换的基函数不再是正交的,这就意味着直接用离散傅立叶变换计算傅立叶系数将产生误差。利用最小二乘反演计算傅立叶系数就是一种补救措施 。

假设数据是在空间方向上是不规则采样的,每个采样点的位置分别为[x ,…,x ,…,x ]。使用真实的采样位置和采样间隔的中点法则,非规则采样数据的离散傅立叶变换可由以下离散求和的形式表达:

油气成藏理论与勘探开发技术(五)

上式为非均匀离散傅立叶变换。其中,空间采样间隔△x 定义为:

油气成藏理论与勘探开发技术(五)

在波数域规则采样意味着数据在空间域是周期性的,所以 X为非规则采样数据的长度。 如果直接用NDFT(Non-uniform Discrete Fourier Transform)计算波数,则由于采样非规则而会引起极大的误差,因此实际计算时通常采用最小二乘反演来计算波数。

首先定义由规则采样波数计算任意空间位置采样数据的数学变换,把它当作正演模型。假设带限数据的波数域带宽为[-M△k,M△k],在波数域规则采样,△k为空间波数采样间隔,则由波数域重建任意空间位置x 的离散傅立叶反变换为

油气成藏理论与勘探开发技术(五)

记系数矩阵为 不规则采样数据为d =P(x ,ω),待求的规则波数为

油气成藏理论与勘探开发技术(五)

则将公式(3)写成矩阵形式为

油气成藏理论与勘探开发技术(五)

在实际的地震数据处理中,由于数据可能不完全是带限的,所以部分空间波数成分会超出定义的频带范围,这些超出的成分构成了上述正演模型的误差和噪音,因此在上式中需要噪声项:

油气成藏理论与勘探开发技术(五)

Duijndam等 通过最小二乘反演估计得到非规则采样数据d(x ,t)的空间波数 从非规则采样数据向量d中计算出未知的规则采样的傅立叶系数向量 可以归结为求解一个不适定线性反演问题,需要对其进行正则化,借助一些先验信息构建出合适的解。可以使用任何所需的参数估计技术,首先我们假设噪音n=N(0,C )和先验信息

油气成藏理论与勘探开发技术(五)

都是高斯分布的,噪音的协方差矩阵为C ,其平均值为零。利用贝叶斯参数反演方法通过寻找后验概率密度函数

油气成藏理论与勘探开发技术(五)

的最大值来进行反演,其中 是似然函数, 表示模型向量的先验分布。分别满足

油气成藏理论与勘探开发技术(五)

油气成藏理论与勘探开发技术(五)

求 的最大后验概率解转化为求下面目标函数的最小化解,建立目标函数

油气成藏理论与勘探开发技术(五)

最小化目标函数得:

油气成藏理论与勘探开发技术(五)

这里, 为计算要得到的规则采样波数,A 为矩阵A的共轭转置矩阵, 为先验模型的协方差矩阵。

下面我们对(9)式进行简化。首先对于地震数据,通常没有先验模型信息,因此 一般没有理由假设空间波数之间的相关性,所以 是对角阵,通常的形式为 是先验模型的方差。准确地表达噪音的协方差矩阵C 是不现实的,因为关于噪音详细的信息是未知的。Duijndam等 给出的噪音协方差矩阵为C =c W ,c是常数;W为权系数组成的对角阵,即W=diag(△x )。根据离散傅立叶变换理论,应选择△k≤2π/X,这里X=∑ △x ,为数据的长度,即X=x -x ,则(9)式变为

油气成藏理论与勘探开发技术(五)

其中, 称为阻尼因子。λ可以通过L-curve或者广义交叉验证(GCV)方法确定,最佳的选取方法是 :

油气成藏理论与勘探开发技术(五)

式中:F为用户给定的常数,表示期望的数据信噪比值。但在实际地震数据重建过程中,λ一般取A WA矩阵主对角元素的1%。

方程(10)的解称为最小范数解,也称为阻尼最小二乘解,该重建方法称为最小范数傅立叶重建方法(Fourierreconstruction with minimum norminversion,FRMN) 。通常非规则采样时,式(10)的系数矩阵AHWA为病态的Toeplitz矩阵。当不加权矩阵W时,A A形成的Toeplitz矩阵病态程度受非规则采样数据之间的致密程度控制。非规则采样地震数据中地震道靠得越近,间距△x越小,则Toeplitz矩阵的条件数就越大,求解越困难;加上权系数矩阵W后,A WA形成的Toeplitz矩阵病态程度受各数据之间的最大空隙△x 的大小控制,△x =max(△x )。系数矩阵A WA的条件数与最大空隙△x 的关系如下 :

油气成藏理论与勘探开发技术(五)

由上式可见,最大空隙△x 越大,矩阵A WA病态程度越大,求解方程时就越难以收敛。如果定义空间Nyquist采样间隔为

油气成藏理论与勘探开发技术(五)

则当△x ≥3△x 时,系数矩阵A WA已经无法保证迭代收敛 。也就是说当非规则采样地震数据的空隙太大时,不能得到满意的重建效果。这是傅立叶重建方法的固有弊病。

方程(10)实际求解时一般在频率域逐频率求解。 在求解方程时,由于低频部分只需要很小的波数带宽就能完整重建数据,因此求解方程(10)的规模小,求解相对容易;而高频部分则需要较大的波数带宽,因此求解式(10)中的未知数多,求解需要更多的计算时间,而且解也不稳定。 因此,利用最小范数傅立叶方法重建的地震数据低频部分有较高的精度。

2 多步自回归方法

自回归模型(预测滤波器)在信号处理领域具有广泛的应用,它是一种模拟信号演化的技术 。自回归模型可以应用于信号预测和噪音消除 、地震道内插 以及参数频谱分析 等方面。t-x域的线性同相轴变换到f-x域是复正弦函数,该函数可以通过自回归算子来模拟。Spitz 和Porsani 提出了自回归的重建方法,成功地解决了规则采样含空间假频地震数据的插值问题,这些方法是利用低频信息来恢复数据的高频部分。但这种方法只适用原始地震数据是空间规则采样的情况,而且只能用于加密插值。

多步自回归方法(multistep autoregressive,MSAR) 是对Spitz单步预测方法的拓展,使其应用范围从只能进行道加密插值扩展到能对不规则缺道地震数据进行插值重建。假设地震数据包含有限个线性同相轴,由N个等间距的地震道组成,部分地震道是缺失的。首先将地震数据从时间域变换到频率域,在f-x域,地震数据可以用向量x(f)表示,x (f)=[x (f),x (f),x (f),…,x (f)],其中只有M道数据是已知的。分别用n={n(1),n(2),n(3),…,n(M)}和m={m(1),m(2),m(3),…,m(N-M)}表示已知数据和未知数据(缺失道)的下标,目标是从x (f)中恢复出x (f)。

由L个近似线性的同相轴构成的地震数据在f-x域可表示为

油气成藏理论与勘探开发技术(五)

式中:△x和△f分别表示空间域和频率域采样间隔;p 表示第j个线性同相轴的斜率;A 表示振幅。对于每个频率成分f,上式表明在f-x域每个线性同相轴都可以用复谐波函数来表示。考虑当△x′=α△x,△f′=△f/α时,得到:

油气成藏理论与勘探开发技术(五)

此外,通过自回归模型的形式,可将L个谐波函数的叠加表达为

油气成藏理论与勘探开发技术(五)

其中P(j,n△f)表示预测滤波因子。同样的,对于△x′和△f′,有

油气成藏理论与勘探开发技术(五)

比较表达式(15)、(16)和(17),可得:

油气成藏理论与勘探开发技术(五)

该式即为多步自回归方法的基础。 它表明在频率轴上,对于预测滤波器的每个成分都是可预测的。 这就意味着,如果已知某些频率的预测滤波器,可以预测得到其他频率的预测滤波器。 也就是说,我们可以从傅立叶方法重建得到的无空间假频的低频成分的预测滤波器中提取高频成分的预测滤波器,进而重建得到缺失地震道的高频成分。

假设用最小范数傅立叶方法重建得到的低频数据的频率范围为f∈[f ,f ],在f-x域线性同相轴向前和向后预测的多步预测滤波器可以由下列方程组确定:

油气成藏理论与勘探开发技术(五)

式中:*表示复共轭;L表示预测滤波器的长度;P (f)表示预测滤波器。这些方程对应一种特殊类型的自回归模型,向前自回归方程(19)和向后自回归方程(20)是通过每次向前和向后跳α步来实现的。通过自回归方程(19)和(20)可以计算出在α步时的预测滤波器P (f)。参数α=1,2,…,α 是步长因子,用于从频率f中提取频率αf的预测滤波器。由于步长因子是一个正整数,很显然低频部分为数据重建算法提供了重要的信息。步长上限α 依赖于地震道数N和预测滤波器的长度L,该参数由下式给出

油气成藏理论与勘探开发技术(五)

这里[.]表示取整数部分。

当用多步自回归方法从已重建的低频数据x(f)中计算出高频数据x(f′)的预测滤波器时,同Spitz插值方法相似,可以通过已知的数据和预测滤波器重建出缺失的数据。向前和向后自回归重建方程为

油气成藏理论与勘探开发技术(五)

设地震数据中含有L个不同斜率的线性同相轴,地震数据的有效频带范围为[f ,f ],含空间假频的不规则道缺失的地震数据的重建实施步骤为:(1)首先将原始地震数据变换到f-x域,用最小范数傅立叶方法重建无空间假频的低频段[f ,f ]的地震数据,得到低频段地震数据,其中f =f 。对于不含空间假频的有限带宽信号而言,FRMN重建得到的地震数据精度较高;(2)运用方程(19)和(20),从低频段[f ,f ]中提取高频成分的预测滤波器P (f′);(3)利用已知道数据和预测滤波器P (f′)重建缺失的地震数据;(4)最后将重建后的地震数据反变换回t-x域。遇到复杂地震数据时,同相轴可能不满足线性假设,可将地震数据划分成多个小时空窗,分窗口进行重建。综上所述,从无空间假频低频段[f ,f ]数据中提取缺失数据高频成分f′=αf的预测滤波器,然后利用已知数据和预测滤波器计算缺失数据的高频成分,最终完成多步自回归重建。

3 理论数据算例

为了验证多步自回归算法的有效性,本节中我们将该算法应用于理论数据,进行缺失道的重建以及加密插值。 第一个理论数据如图1(a)所示,是由7个不同斜率的线性同相轴组成,其f-k谱含有严重的空间假频(如图1(c)所示)。 共有81道,道间距为5m,时间采样间隔为2ms,采样点数为901。 图1(b)是从原始数据中随机抽去了40%的地震道后得到的数据。 图1(d)是图1(b)对应的f-k谱。 从图1(d)中可以看出,由于地震道的缺失而导致f-k谱上产生严重的噪音。

图1 多步自回归法理论算例

图2 最小范数傅立叶重建方法与多步自回归法的理论联合应用(一)

图2(a)是利用FRMN方法重建出的低频数据,其f-k谱如图2(c)所示。 重建出的低频数据被MSAR算法用于提取预测滤波器来重建数据的高频部分。 对于数据低频端的预测滤波器是通过预测滤波器的外推来估计。 通过FRMN + MSAR方法重建后的完整数据如图2(b)所示,其对应的f-k谱如图2(d)所示,与原始数据的f-k谱(图1(c))相对比,几乎完全一样,由采样缺失引起的噪音已被消除。 与原始数据(图1(a))相对比,缺失的地震道被填充,线性同相轴的连续性也很好。

图3 最小范数傅立叶重建方法与多步自回归法的理论联合应用(二)

图4 图3中数据对应的f-k谱

图5 最小范数傅立叶重建方法与多步自回归方法的实际应用

为了进一步验证算法在复杂情况下的适用性,我们选取了Marmousi模型数据中的一个单炮数据(图3(a)),共有96道数据,道间距为25m,时间采样间隔为4ms,采样点数为750。 随机抽去了其中的27道数据(图3(b)),用FRMN + MSAR方法对该数据进行重建,图3(c)显示的是用FRMN方法重建的低频段的数据,图3(d)显示的是用FRMN+MSAR方法重建的完整单炮数据。 由于模型很复杂,所以原始单炮数据的f-k谱有空间假频的存在(图4(a))。 图4(b)是图3(b)对应的f-k谱,可以看出含有严重的噪音。 图4(c)和图4(d)分别是3(c)和图3(d)对应的f-k谱。 重建后的数据f-k谱中的噪音消除了,缺失的道也得到了填充,而且同相轴也保持很好的连续性。

图6 图5中数据对应的f-k谱

4 实际数据算例

本节我们将对实际数据进行重建,以验证FRMN +MSAR方法的适用性。 选取一个共偏移距地震剖面的部分数据(图5(a)),总共有201道,道间距为12.5m,时间采样间隔为2ms。 随机抽去其中30%的地震道(图5(b))进行重建,图5(c)展示的是FRMN方法重建的低频段的数据,图5(d)展示的是FRMN+MSAR重建的完整数据。 图6(a)、图6(b)、图6(c)和图6(d)分别是图5(a)、图5(d)、图5(c)和图5(d)对应的f-k谱。 可以看出,重建前后数据f-k谱的变化很小。 重建后数据的缺失道得到了恢复,且同相轴连续,重建的结果接近于原始数据。

5 结论

本文在最小范数傅立叶重建方法的基础上,结合多步自回归方法进行含空间假频地震数据的重建。 多步自回归方法是对Spitz方法的拓展,也是基于近似线性同相轴的假设。 因此在处理复杂地震数据的时候一般难以满足这个假设,这时可采用小时空窗的方法来进行计算,在小时空窗中可以认为满足近似线性的假设。 但是时空窗太小会使数据量不足,反而会导致重建的结果不好或可能无法重建。 众所周知,为了能够求解大多数的地球物理问题,必须基于某些假设条件。 一般在处理实际数据时,都是部分地违背这些假设的。 事实上,对于中等程度弯曲的同相轴本方法同样能取得比较理想的重建结果,说明本文的重建方法具有很好的稳定性。 实际上,对于含有大间距空道的地震数据,该方法同样取得了较好的重建结果。 通过对一些理论数据和实际数据进行重建实验,验证了本文中重建方法的有效性和实用性。 另外,地震数据的重建效果同原始数据的复杂程度以及谱的性质、缺失地震道的数量及位置和缺失道间距的大小等多方面原因有关,需要进一步研究这些因素对重建算法的影响。

参考文献

[1]Eiken O,Haugen G U,Schonewile M A,and Duijndam A J W.A proven method for acquiring highly repeatable towed streamer seismic data[J],2003,68(4):1303~1309.

[2]Wever A,Spetzler for source and receiver positioning in time-lapse seismic acquisition:74th .,SEG,Expanded Abstracts,2004:2319~2322.

[3]Duijndam A J W,Schonewille M A,and Hindriks C O of band-limited signals, irregulary sampled along one spatial direction[J],1999,64(2):524~538.

[4]Hindriks K,Duijndam A J W,Reconstruction of3 -D seismic signals irregularly sampled along two spatial coordinates[J],2000,65(1):253~263.

[5]Liu B,Sacchi weighted norminterpolation of seismic records[J],2004,69(6):1560~1568.

[6]Zwartjes P M ,Sacchi M reconstruction of nonuniformly sampled,aliased seismic data[J]. Geophysics,2007,72(1):21~32.

[7]Feichtinger H G,Grochenig K,Strohmer numerical methods in non -uniformsampling theory[J] Mathematik,1995,69:423~440.

[8]Zwartjes P M,Fourier reconstruction with sparse inversion,Delft University of Technology,2005.

[9]Takalo R,Hytti H,Ihalainen on univariate autoregressive spectral analysis[J] of Clinical Monitoring and Computing,2005,19(6):401~410.

[10]Canales L noise reduction:54th .,SEG,Expanded Abstracts,1984: Session:S10.1.

[11]Spitz traces interpolation in f-x domain[J],1991,56(6):785 ~794.

[12]Porsani M trace interpolation using half-step prediction filters[J],1999,64(5):1461~1467.

[13]Marple S spectral analysis with Cliffs,New Jersey:Prentice-Hall Inc,1987.

[14]Naghizadeh M,Sacchi M autoregressive reconstruction of seismic records[J]. Geophysics,2007,72(6):111-118.

  • 声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
  • 本文地址:https://m.srwj168.com.cn/caijing/5530.html
澳洲前百自冠军 索普狂赞潘展乐 杀疯了的速度
我却夸不出 汤唯新片够牛X