如何从S3存储桶中读取内容作为URL_随笔

如何从S3存储桶中读取内容作为URL

由于您似乎正在使用熊猫，因此请注意，它实际上是

s3fs

在盖子下使用的。因此，如果您的安装相对较新且标准，则可以直接执行以下 *** 作：

df = pd.read_csv(s3_path)

如果您的存储桶有一些特定的配置，例如特殊凭证，KMS加密等，则可以使用显式配置的

s3fs

文件系统，例如：

fs = s3fs.S3FileSystem(    key=my_aws_access_key_id,    secret=my_aws_secret_access_key,    s3_additional_kwargs={ 'ServerSideEncryption': 'aws:kms', 'SSEKMSKeyId': my_kms_key,    },)# note: KMS encryption only used when writing; when reading, it is automatic if you have accesswith fs.open(s3_path, 'r') as f:    df = pd.read_csv(f)# here we write the same df at a different location, making sure# it is using my_kms_key:with fs.open(out_s3_path, 'w') as f:    df.to_csv(f)

就是说，如果您真的很想处理对象，而问题只是关于如何删除潜在的

s3://

前缀然后进行拆分

bucket/key

，则可以使用：

bucket, key = re.sub(r'^s3://', '', s3_path).split('/', 1)

但是，这可能会错过更一般的情况，并通过系统处理公约，如awscli或非常s3fs上面提到的。

为了更笼统，您可以在中了解他们的 *** 作方式

awscli

。通常，这样做通常可以很好地表明某些功能是否已经内置

boto3

或

botocore

。但是，在这种情况下，它似乎没有（查看本地发行版本1.18.126）。他们只是从第一条原则开始这样做：请参见此处

awscli.customizations.s3.utils.split_s3_bucket_key

实现的内容。

从该代码中最终使用的正则表达式，您可以推断出这种情况所

awscli

允许的情况

s3_path

确实多种多样：

_S3_ACCESSPOINT_TO_BUCKET_KEY_REGEX = re.compile(    r'^(?P<bucket>arn:(aws).*:s3:[a-z-0-9]+:[0-9]{12}:accesspoint[:/][^/]+)/?'    r'(?P<key>.*)$')

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5649550.html

如何从S3存储桶中读取内容作为URL

发表评论

评论列表（0条）