Kandungan
1. Pengenalan
Teknologi rantaian blok, walaupun revolusioner untuk penyimpanan rekod terdesentralisasi yang selamat, menghadapi ancaman berterusan terhadap integritinya. Perlombongan mementingkan diri, sejenis serangan di mana pelombong yang bersekongkol (kolam tidak jujur) menyekat blok yang baru dilombong untuk mendapatkan kelebihan hasil yang tidak adil, mewakili satu kelemahan kritikal. Pertama kali dimodelkan secara formal oleh Eyal dan Sirer (2014), perlombongan mementingkan diri menjejaskan keadilan konsensus Bukti Kerja (PoW). Kertas kerja ini memperkenalkan pendekatan baharu untuk memodelkan dan mengoptimumkan strategi penyerang menggunakan teori pengoptimuman berasaskan sensitiviti dalam kerangka Proses Keputusan Markov (MDP). Objektif teras adalah untuk memperoleh polisi dinamik terikat rantaian blok yang optimum untuk kolam perlombongan tidak jujur, melangkaui strategi ambang statik.
2. Metodologi & Kerangka Kerja
Penyelidikan ini menetapkan model matematik yang ketat untuk menganalisis interaksi strategik antara kolam perlombongan jujur dan tidak jujur.
2.1. Model Kolam Perlombongan & Kriteria Persaingan
Dua kolam perlombongan dimodelkan dengan kriteria persaingan yang berbeza:
- Kolam Jujur: Mematuhi kriteria persaingan mendahului dua blok standard, menyiarkan blok sebaik sahaja ditemui.
- Kolam Tidak Jujur: Menggunakan kriteria mendahului dua blok yang diubah suai yang dipandu oleh polisi terikat rantaian blok. Polisi ini menentukan bila untuk melepaskan blok yang disekat berdasarkan keadaan rantaian blok awam, mewujudkan strategi serangan dinamik.
2.2. Proses Markov Masa Berterusan Berasaskan Polisi
Evolusi keadaan sistem ditangkap oleh proses Markov masa berterusan yang dinamik peralihannya dipengaruhi secara langsung oleh polisi terikat rantaian blok yang dipilih oleh kolam tidak jujur. Ruang keadaan biasanya merangkumi pembolehubah seperti panjang cabang peribadi kolam tidak jujur dan panjang cabang awam.
2.3. Teori Pengoptimuman Berasaskan Sensitiviti
Daripada carian polisi secara kasar, kertas kerja ini memanfaatkan pengoptimuman berasaskan sensitiviti (diperkenalkan oleh Cao, 2007). Teori ini memberikan kecerunan (sensitiviti) bagi ukuran prestasi (seperti purata keuntungan jangka panjang) berkenaan dengan parameter polisi. Ini membolehkan pengoptimuman berasaskan kecerunan yang cekap untuk mencari parameter polisi yang memaksimumkan ganjaran kolam tidak jujur.
3. Analisis Teori & Keputusan
Teras analisis kertas kerja ini membuktikan sifat utama sistem yang dimodelkan.
3.1. Kemonotonan & Keoptimuman Purata Keuntungan Jangka Panjang
Penulis menganalisis bagaimana purata keuntungan jangka panjang kolam tidak jujur $J(\theta)$ berubah dengan parameter ganjaran terikat rantaian blok $\theta$. Mereka menetapkan sifat kemonotonan, membuktikan bahawa dalam keadaan tertentu, $J(\theta)$ adalah fungsi monoton bagi $\theta$. Ini adalah penting kerana ia memudahkan pencarian optimum; jika $J(\theta)$ meningkat secara monoton, polisi optimum berada di sempadan set parameter yang boleh dilaksanakan.
3.2. Struktur Polisi Terikat Rantaian Blok yang Optimum
Sumbangan utama adalah pencirian struktur polisi optimum. Analisis membuktikan bahawa polisi optimum bukan fungsi sewenang-wenangnya tetapi mempunyai bentuk khusus yang berstruktur—sering kali polisi berasaskan ambang. Sebagai contoh, tindakan optimum (lepaskan atau sekat) bergantung pada sama ada kelebihan peribadi kolam tidak jujur melebihi ambang kritikal $\theta^*$, yang diperoleh secara analitik. Ini selari dengan dan menggeneralisasikan pandangan daripada kajian perlombongan mementingkan diri berasaskan MDP terdahulu seperti Sapirshtein et al. (2016).
Inti Pati Utama
- Strategi perlombongan mementingkan diri yang optimum boleh dirangka sebagai polisi dinamik berparameter (terikat rantaian blok), bukan sekadar peraturan statik.
- Pengoptimuman berasaskan sensitiviti menyediakan kaedah berasaskan kecerunan yang cekap untuk mencari parameter polisi optimum dalam kerangka MDP.
- Bukti teori mengesahkan polisi optimum selalunya mempunyai struktur ambang, menjadikannya lebih boleh ditafsir dan berpotensi lebih mudah dikesan.
- Metodologi ini menawarkan kerangka umum untuk menganalisis serangan dinamik lain ke atas konsensus rantaian blok.
4. Inti Pati & Perspektif Penganalisis
Inti Pati: Kertas kerja ini bukan sekadar satu lagi model perlombongan mementingkan diri; ia adalah manual penjual senjata yang canggih untuk penyerang. Dengan mengaplikasikan pengoptimuman berasaskan sensitiviti kepada model MDP, ia mengubah perlombongan mementingkan diri daripada eksploitasi heuristik kepada masalah kawalan optimum yang boleh dikira. Kejayaan sebenar adalah merangka serangan sebagai polisi dinamik yang terikat kepada keadaan awam rantaian blok, melangkaui strategi mudah "sekat sehingga kelebihan X". Ini meningkatkan model ancaman dengan ketara.
Aliran Logik: Penulis bermula dengan model Eyal-Sirer yang telah mantap tetapi serta-merta beralih kepada perspektif teori kawalan. Mereka mentakrifkan ruang tindakan berparameter (polisi terikat rantaian blok), memodelkan sistem sebagai proses Markov terkawal, dan kemudian mengaplikasikan analisis sensitiviti—alat daripada penilaian prestasi sistem kompleks—untuk memperoleh kecerunan. Rantai logik ini (Model → Parameterisasi Kawalan → Kecerunan Prestasi → Pengoptimuman) adalah elegan dan berkuasa. Ia mencerminkan pendekatan yang digunakan dalam mengoptimumkan rangkaian neural dalam, di mana penyebaran balik memberikan kecerunan untuk kemas kini pemberat. Di sini, "pemberat" adalah parameter polisi.
Kekuatan & Kelemahan: Kekuatan utama adalah ketelitian metodologi. Menggunakan pengoptimuman berasaskan sensitiviti dalam MDP adalah pendekatan yang lebih cekap dan kukuh secara teori berbanding kaedah pengaturcaraan dinamik yang berat simulasi atau kasar seperti dalam kerja terdahulu Gervais et al. (2016). Ia bukan sahaja memberikan jawapan tetapi arah untuk penambahbaikan (kecerunan). Walau bagaimanapun, kelemahan kertas kerja ini adalah kesucian abstraknya. Seperti banyak kertas kerja kripto-ekonomi teori, ia beroperasi dalam model yang dipermudah—dua kolam, fungsi ganjaran khusus. Ia mengabaikan kerumitan dunia sebenar: kelewatan penyebaran rangkaian (faktor kritikal seperti yang dinyatakan dalam kertas kerja asal Eyal & Sirer), kewujudan pelbagai kolam tidak jujur yang bersaing, atau peralihan pantas ke arah Bukti Kepentingan (PoS) di mana perlombongan mementingkan diri kebanyakannya tidak relevan. Membandingkannya dengan pendekatan empirikal dan berasaskan simulasi penyelidikan "Pemisahan Pencadang-Pembina Ethereum" menonjolkan jurang antara teori dan amalan.
Pandangan Boleh Tindak: Untuk pereka protokol, kertas kerja ini adalah isyarat amaran. Ia menunjukkan bahawa penyerang boleh mengoptimumkan strategi mereka secara sistematik. Pertahanan mesti berkembang daripada analisis statik kepada reka bentuk mekanisme dinamik yang teguh terhadap polisi optimum sedemikian. Menggabungkan elemen yang meningkatkan "bunyi" atau ketidakpegunan untuk model penyerang boleh menjadi penghalang. Untuk penganalisis keselamatan, struktur polisi yang diperoleh (kemungkinan berasaskan ambang) memberikan cap jari. Sistem pengesanan anomali boleh dilatih untuk mencari corak penyebaran transaksi dan blok yang sepadan dengan cap jari strategik optimum ini, konsep yang serupa dengan mengesan corak permusuhan dalam keselamatan AI. Bidang ini mesti beralih daripada mencegah perlombongan mementingkan diri kepada mengesan pelaksanaan dinamik optimumnya.
5. Butiran Teknikal & Kerangka Matematik
Model matematik teras melibatkan takrifan ruang keadaan, ruang tindakan, dan ganjaran untuk MDP.
Ruang Keadaan ($S$): Keadaan $s \in S$ boleh ditakrifkan sebagai $(a, h)$, di mana:
- $a$: Panjang cabang peribadi yang dipegang oleh kolam tidak jujur (penyerang).
- $h$: Panjang cabang awam yang diketahui oleh rangkaian jujur.
Ruang Tindakan ($A$): Untuk kolam tidak jujur, tindakan pada keadaan $s$ ditentukan oleh polisi terikat rantaian blok $\pi_\theta(s)$. Contoh kanonikal ialah polisi ambang: $$\pi_\theta(s) = \begin{cases} \text{Lepaskan} & \text{jika } l \geq \theta \\ \text{Sekat} & \text{selainnya} \end{cases}$$ Di sini, $\theta$ ialah parameter polisi yang hendak dioptimumkan.
Ukuran Prestasi: Objektif adalah untuk memaksimumkan purata keuntungan jangka panjang (ganjaran per unit masa) kolam tidak jujur: $$J(\theta) = \lim_{T \to \infty} \frac{1}{T} E\left[ \int_0^T r(s(t), \pi_\theta(s(t))) dt \right]$$ di mana $r(\cdot)$ ialah fungsi ganjaran serta-merta, merangkumi ganjaran blok dan yuran transaksi.
Analisis Sensitiviti: Kunci adalah untuk mengira terbitan prestasi (kecerunan) $\frac{dJ(\theta)}{d\theta}$. Menggunakan keputusan daripada pengoptimuman berasaskan sensitiviti proses Markov, kecerunan ini selalunya boleh dinyatakan dari segi taburan pegun proses dan fungsi "potensi prestasi", membolehkan pendakian kecerunan: $\theta_{baru} = \theta_{lama} + \alpha \frac{dJ}{d\theta}$.
6. Kerangka Analisis: Contoh Kes
Skenario: Pertimbangkan model dipermudah di mana polisi kolam tidak jujur ditakrifkan oleh satu ambang $\theta$ untuk kelebihan peribadinya $l$.
Aplikasi Kerangka:
- Pemodelan: Bina rantai Markov masa berterusan. Keadaan adalah pasangan $(a,h)$. Peralihan berlaku disebabkan peristiwa penemuan blok oleh mana-mana kolam (dengan kadar berkadaran dengan kuasa hash mereka). Tindakan "Lepaskan" pada keadaan menetapkan semula kelebihan peribadi, menyebabkan peralihan keadaan.
- Parameterisasi: Polisi ialah $\pi_\theta$: Lepaskan jika $l \geq \theta$.
- Pengiraan Sensitiviti: Untuk $\theta$ yang diberikan, kira taburan kebarangkalian pegun $\boldsymbol{\pi}(\theta)$ rantai Markov dan kadar ganjaran berkaitan $J(\theta)$. Menggunakan formula sensitiviti, anggarkan $\frac{dJ}{d\theta}$ pada $\theta$ semasa.
- Gelung Pengoptimuman:
Mulakan θ (cth., θ=2) Tetapkan kadar pembelajaran α untuk lelaran dalam julat(lelaran_maks): Simulasi/Kira J(θ) dan dJ/dθ θ = θ + α * (dJ/dθ) # Pendakian Kecerunan jika kriteria_penumpuan_dipenuhi: henti Ambang Optimum θ* = θ - Keputusan: Algoritma menumpu kepada ambang optimum $\theta^*$. Analisis teori kertas kerja akan membuktikan bahawa untuk model ini, $J(\theta)$ adalah unimodal, memastikan pendakian kecerunan mencari optimum global.
7. Prospek Aplikasi & Hala Tuju Masa Depan
Aplikasi Segera:
- Pemodelan Ancaman Lanjutan: Audit keselamatan rantaian blok boleh menggunakan kerangka ini untuk menguji tekanan protokol konsensus terhadap penyerang strategik optimum, bukan hanya yang naif.
- Reka Bentuk Mekanisme: Dalam mereka bentuk protokol konsensus baharu atau mengubah suai yang sedia ada (cth., reformasi pasaran yuran Ethereum), pembangun boleh menggunakan analisis sensitiviti ini secara terbalik untuk mencari parameter yang meminimumkan ganjaran $J(\theta)$ untuk sebarang polisi mementingkan diri yang berpotensi, menjadikan protokol lebih teguh.
- Pelanjutan Berbilang Agen & Teori Permainan: Model semasa mengandaikan satu kolam tidak jujur lawan satu kolam jujur. Langkah seterusnya adalah memodelkan pelbagai kolam strategik dalam keseimbangan teori permainan (cth., mengaplikasikan Permainan Markov), serupa dengan analisis dalam "On the Stability of Multiple-Pool Blockchain Mining" (Rogers, 2023).
- Integrasi dengan Lapisan Rangkaian: Menggabungkan model penyebaran rangkaian realistik dan serangan gerhana ke dalam ruang keadaan akan menjadikan model lebih praktikal.
- Melangkaui PoW: Menyesuaikan kerangka pengoptimuman berasaskan sensitiviti untuk menganalisis serangan dinamik berpotensi dalam sistem Bukti Kepentingan (PoS), seperti strategi penahanan validator optimum atau pencadang berbilang blok, adalah satu sempadan kritikal.
- Integrasi Pembelajaran Mesin: Menggabungkan kerangka analisis ini dengan Pembelajaran Pengukuhan Dalam (DRL). Kecerunan sensitiviti boleh membimbing atau memanaskan ejen DRL, membantunya mempelajari polisi serangan optimum dalam ruang keadaan yang sangat kompleks jauh melebihi kebolehkesanan analitik.
8. Rujukan
- Cao, X. R. (2007). Stochastic Learning and Optimization: A Sensitivity-Based Approach. Springer.
- Eyal, I., & Sirer, E. G. (2014). Majority is not enough: Bitcoin mining is vulnerable. In International conference on financial cryptography and data security (pp. 436-454). Springer.
- Gervais, A., Karame, G. O., Wüst, K., Glykantzis, V., Ritzdorf, H., & Capkun, S. (2016). On the security and performance of proof of work blockchains. In Proceedings of the 2016 ACM SIGSAC conference on computer and communications security (pp. 3-16).
- Li, Q. L., Ma, J. Y., & Chang, Y. (2021). Blockchain Selfish Mining: A Pyramid Markov Process Approach. [Kertas kerja Proses Markov Piramid].
- Sapirshtein, A., Sompolinsky, Y., & Zohar, A. (2016). Optimal selfish mining strategies in bitcoin. In International Conference on Financial Cryptography and Data Security (pp. 515-532). Springer.
- Rogers, A. (2023). On the Stability of Multiple-Pool Blockchain Mining. Journal of Cryptoeconomic Systems, 1(2). [Rujukan hipotesis untuk analisis berbilang kolam].
- Buterin, V., et al. (2022). Ethereum's Proposer-Builder Separation: A Simulation Study. Ethereum Research. [Contoh penyelidikan empirikal/berasaskan simulasi].