我有一个postgres数据库,它包含对文件系统上文件的引用。这些引用都是简单的VARCHAR值,因此我理解没有引用完整性得到保证:
CREATE TABLE user (
username VARCHAR(50) PRIMARY KEY,
age INTEGER,
template VARCHAR(100) -- Filepath of a file on disk
);
INSERT INTO
user (username, age, template)
VALUES ('bob', 32, '/
第三方每天都会将日志文件上传到S3存储桶中。我尝试使用DataPipeline将它们转换成与awk略有不同的格式,将新文件放回S3上,然后将原始文件移到一边,这样我明天就不会再次处理相同的文件。
有没有一种干净利落的方法呢?目前,我的shell命令类似于:
#!/usr/bin/env bash
set -eu -o pipefail
aws s3 cp s3://example/processor/transform.awk /tmp/transform.awk
for f in "${INPUT1_STAGING_DIR}"/*; do
basename=${f//