: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複
: 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值
: 為了要避免他們儲存太多重複的檔案
: 有兩個用戶上傳一樣hash的檔案可以只存一份就好
: (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間)
用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同
我覺得蘋果不會做這種智障系統,否則這系統根本沒用
所以去翻了一下相關文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起來是用蘋果自己開發的新演算法 NeuralHash
看名字就知道一定跟神經網路有關
大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵
最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值
LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化
以避免相似的資料產生一樣的 hash
LSH 則否,越相似的資料產生相同 hash 的機率越高
以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash
是很厲害的技術
--
至於在哪裡計算與比對、以及如何找出異常,都有超級複雜的處理方式
算是可以看出蘋果對用戶隱私的用心啦
至於有沒有用、使用者買不買單就是另外一回事囉
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.34.68 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/MobileComm/M.1628356150.A.9BC.htmljason26416681樓 08/08 01:13 zrna05152樓誤判的後續處理是否會侵害隱私呢?或是擾民? 08/08 01:19
→ jason26416683樓樓上 他有一個 threshold number 08/08 01:20
→ jason26416684樓基本上你要iCloud裡面有一堆這種類型的照片 08/08 01:21
→ jason26416685樓超過那個 threshold number 他才會轉人工檢測 08/08 01:21
→ jason26416686樓一張兩張 有可能是誤判 可是你有100張都被確診 08/08 01:21
→ jason26416687樓那就合理懷疑你是有問題的 08/08 01:21
→ jason26416688樓100只是我隨便設一個 threshold number 08/08 01:21
jason26416689樓白皮書裡面有說 他們不會去學習不在那個資料庫內的 08/08 01:24
→ jason264166810樓特徵 08/08 01:24
→ jason264166811樓很大程度要去降誤差帶來的問題 08/08 01:24
→ jason264166812樓你的兒童色情圖片不在 CSAM 資料庫中 08/08 01:25
→ jason264166813樓在蘋果這套偵測機制下 是不會被抓出來的 08/08 01:25
→ sami01298514樓所以在訓練這個模型的同時他們也有大量的兒童色情 08/08 01:29
→ sami01298515樓資料囉 08/08 01:29
→ s25g5d416樓如果只是單純訓練模型的話,不用用有問題的圖片下去 08/08 01:31
→ s25g5d417樓訓練。那個只是要取圖片特徵,所以大概是比較廣泛的 08/08 01:32
→ s25g5d418樓資料下去訓練的 08/08 01:32
jason264166819樓白皮書裡面有寫 誤判率大概是 1 in 1 trillion 08/08 01:33
→ sami01298520樓不是用有色情去訓練,那我今天拍兒女的生活照片, 08/08 01:39
→ sami01298521樓是不是也會被抓兒童色情拿去人工審核呢,隱私呢? 08/08 01:39
→ s25g5d422樓你是要談模型訓練還是比對?模型已經訓練好了當然不 08/08 01:42
→ s25g5d423樓會拿你的照片下去訓練,至於比對是一定會做的,不爽 08/08 01:42
→ s25g5d424樓不要用 08/08 01:42
jason264166825樓他有說不會訓練 CSAM 提供以外的 08/08 01:48
→ jason264166826樓CSAM 資料庫基本上就是一個兒童色情犯罪的檔案庫 08/08 01:48
→ jason264166827樓你女兒的裸照並不會無緣無故被拿去訓練 08/08 01:48
→ jason264166828樓除非你兒女的裸照曾經被用於犯罪用途 08/08 01:49
→ jason264166829樓才有機會被列進去 CSAM 資料庫 08/08 01:49
→ jason264166830樓更正是 NCMEC 資料庫 08/08 01:51