請益Request爬蟲

軟工

31123


最近接到一個專案要爬購物網站存mySQL
爬分類裡面各產品資訊+內頁詳細資訊
目前已經使用selenium+multithreading寫完
可惜速度不夠快
所以正改用request改寫
但發現不管用什麼方法(session、cookie、payload)都沒辦法取得首頁的商品資訊
已經把網路上能看的解決方式都看過一遍還是無解

另外也試過network的event(貌似是api?
把相關資訊post上去爆出ConnectionError: ('Connection aborted.'
所有能試解法都試過還是無法
有沒有精通的高手幫看一下還有甚麼辦法呢


附上連結
https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000

-----
Sent from JPTT on my iPhone

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.137.8.129 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1674129833.A.F17.html
keel901351樓標題分類跟縮網址都不會嗎... 01/19 20:13
Hsins2樓非親非故又問的不清不楚,願意幫忙的人可能不多:( 01/19 20:23
MoonCode3樓你瀏覽器看得到用爬蟲至少能抓個幾次(後續可能被擋) 01/19 20:40
MoonCode4樓不要放棄 01/19 20:40
alihue5樓直接回到完成的版本,然後複製多份同時跑,每支爬的範圍 01/19 22:01
alihue6樓指定一下 01/19 22:01
victor218137樓先縮網址再說 01/19 22:40
chuchutaro8樓dynamic websites? 01/20 00:03
wayne56689449樓印象中好像如果是spa爬蟲抓不到(?) 01/20 00:25
vi00024610樓如果你是女生 幫的人可能會多一點 01/20 00:33
vi00024611樓只能給你關鍵字 用wireshark或fiddler看request的raw 01/20 00:34
vi00024612樓data 想辨法模擬出一個一模一樣的request 01/20 00:34
vi00024613樓這是get的raw data 01/20 00:38
vi00024614樓我網路亂抓的圖 我比較常用fiddler 你可以找個順手的 01/20 00:39
becca94515樓你很不想問問題? 01/20 01:03
Murasaki011016樓問chatGPT 01/20 01:19
kanahela17樓你給的這個網址,超級市場分類商品,點進去就timeout了 01/20 07:38
本人18樓不好意思第一次在本版發文 01/20 09:17
本人19樓感謝各位指教 01/20 09:17
surimodo20樓selenium 笑死 怎麼可能快 01/20 10:07
HybridSC21樓建議先去搞懂request的運作方式,不然以後也是一個頁面 01/20 15:44
HybridSC22樓問一次 01/20 15:44
vi00024623樓這兩本書我沒讀過 不過看目錄應該有你要的東西 01/20 16:41
vi00024626樓看反爬蟲那個章節就好 01/20 16:42
brucetu27樓selenium不夠快你不會多開幾台? 01/20 20:29
brucetu28樓你在那邊破解反爬蟲的成本絕對夠你多開好幾台 01/20 20:30
vi00024629樓多開幾台治標不治本 又浪費效能 學好request才是正解 01/21 00:34
本人30樓謝謝各位意見,小弟再回去多研究request 01/21 11:04