Tôi đã trích xuất dữ liệu thanh toán GCP thông qua BigQuery. Tôi đã thực hiện các truy vấn để truy xuất dữ liệu trong khoảng thời gian cụ thể và sau đó tôi tìm thấy hai loại dữ liệu trùng lặp:
dữ liệu trùng lặp do bỏ lồng cột nhãn
kết quả dữ liệu trùng lặp từ các hàng truy vấn thông thường (Giống như bên dưới) có giá trị hoàn toàn giống nhau cho tất cả các cột.
id thanh toán_account_id dưới dạng AS,
dịch vụ.id AS ServiceId,
dịch vụ.mô tả AS Mô tả dịch vụ,
sku.id NHƯ SkuId,
sku.description AS SkuDescription,
thời gian sử dụng_start_time,
thời gian sử dụng_end_time,
project.id NHƯ ProjectId,
project.number AS ProjectNumber,
project.name AS Tên dự án,
project.labels là ProjectLabels,
project.ancestry_numbers AS ProjectAncestryNumbers,
nhãn AS Nhãn,
system_labels NHƯ Nhãn hệ thống,
vị trí.vị trí AS Vị trí,
vị trí.quốc gia AS Quốc gia,
vị trí.khu vực Vùng AS,
location.zone Vùng AS,
SUBSTRING(cast(export_time as string), 1, 19) AS ExportTime,
chi phí AS chi phí,
tiền tệ AS Tiền tệ,
currency_conversion_rate AS Tỷ lệ chuyển đổi tiền tệ,
cách sử dụng. số tiền NHƯ Số lượng sử dụng,
cách sử dụng.đơn vị AS Đơn vị sử dụng,
cách sử dụng.amount_in_pricing_units AS Cách sử dụngAmountInPricingUnits,
đơn vị sử dụng.pricing_unit AS Đơn vị sử dụng giá,
tín dụng AS Tín dụng,
hóa đơn.tháng AS InvoiceMonth,
cost_type AS Loại chi phí,
điều chỉnh_info.id AS điều chỉnhInfoId,
điều chỉnh_info.description AS điều chỉnhInfoDes mô tả,
điều chỉnh_info.mode AS điều chỉnhInfoMode,
điều chỉnh_info.type AS điều chỉnhInfoType
TỪ
'TÊN BẢNG'
Ở ĐÂU NGÀY(_PARTITIONTIME) GIỮA DỮA SubtFromTime(utcnow()),60,'Day','yyyy-MM-dd')AND formatDateTime(utcnow(),'yyyy-MM-dd')```
**Tôi muốn biết tại sao có dữ liệu trùng lặp? Chúng có thể được xử lý như thế nào và làm cách nào để đảm bảo rằng việc tính toán chi phí không bị ảnh hưởng bởi dữ liệu trùng lặp?**
Đánh giá cao nó nếu có ai có thể giúp tôi.
tốt nhất,
Shokoufeh