
ಸಂಶೋಧನಾ ಭಂಡಾರಗಳ ವಿಶ್ಲೇಷಣೆಗಳು ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳಲ್ಲಿ ಭ್ರಮೆಯ ಉಲ್ಲೇಖ ದರಗಳನ್ನು ಅಂದಾಜು ಮಾಡುತ್ತದೆ.ಕ್ರೆಡಿಟ್: ಗೆಟ್ಟಿ ಮೂಲಕ patpitchaya/iStock
ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಮಾದರಿಗಳು ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ಉಲ್ಲೇಖಗಳನ್ನು “ಭ್ರಮೆಗೊಳಿಸುವ” ವಿಷಯವು ಇತ್ತೀಚೆಗೆ ಮುಂಚೂಣಿಗೆ ಬಂದಿದೆ. ಈಗ, ಸಂಶೋಧಕರ ತಂಡವು 2.5 ಮಿಲಿಯನ್ ಪೇಪರ್ಗಳು ಮತ್ತು ಪ್ರಿಪ್ರಿಂಟ್ಗಳನ್ನು ಪರಿಶೀಲಿಸಿದ್ದು, ಅವುಗಳ ಹರಡುವಿಕೆಯ ಉತ್ತಮ ಮೌಲ್ಯಮಾಪನವನ್ನು ಒದಗಿಸಲು ಇನ್ನೂ ಮಾಡಿದೆ.
ಅವರ ಲೆಕ್ಕಪರಿಶೋಧನೆಯು arXiv, bioRxiv, ಸಾಮಾಜಿಕ ವಿಜ್ಞಾನ ಸಂಶೋಧನಾ ಜಾಲ (SSRN), ಮತ್ತು PubMed ಸೆಂಟ್ರಲ್ ಸರ್ವರ್ಗಳು ಸೇರಿದಂತೆ ಪ್ರಮುಖ ರೆಪೊಸಿಟರಿಗಳಲ್ಲಿ ಪಟ್ಟಿ ಮಾಡಲಾದ ಪೇಪರ್ಗಳು ಮತ್ತು ಪ್ರಿಪ್ರಿಂಟ್ಗಳಲ್ಲಿ 111 ಮಿಲಿಯನ್ ಉಲ್ಲೇಖಗಳನ್ನು ವ್ಯಾಪಿಸಿದೆ ಮತ್ತು 2025 ರಲ್ಲಿ ಪ್ರಕಟವಾದ ವಸ್ತುಗಳಲ್ಲಿ 146,932 ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳಿವೆ ಎಂದು ಕಂಡುಹಿಡಿದಿದೆ.
ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳ ಹರಡುವಿಕೆಯು ಸಂಶೋಧನಾ ಕ್ಷೇತ್ರವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ ಎಂದು ವಿಶ್ಲೇಷಣೆಯು ಸೂಚಿಸುತ್ತದೆ. SSRN, ಸಮಾಜ ವಿಜ್ಞಾನ ಸಂಶೋಧನೆಯ ಪ್ರಿಪ್ರಿಂಟ್ ಸರ್ವರ್, ಸುಮಾರು 2% ನಷ್ಟು ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳ ಅತ್ಯಧಿಕ ದರವನ್ನು ಹೊಂದಿದೆ, ಯಾವುದೇ ಪ್ರಮುಖ ಭಂಡಾರಕ್ಕಿಂತ ಸುಮಾರು ಐದು ಪಟ್ಟು ಹೆಚ್ಚು.
“ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳ ಸಂಪೂರ್ಣ ದೇಹದ ಒಟ್ಟಾರೆ ಪ್ರಮಾಣ ಮತ್ತು ಡೈನಾಮಿಕ್ಸ್ನಿಂದ ನಾವು ನಿಜವಾಗಿಯೂ ಆಶ್ಚರ್ಯಚಕಿತರಾಗಿದ್ದೇವೆ” ಎಂದು ನ್ಯೂಯಾರ್ಕ್ನ ಇಥಾಕಾದಲ್ಲಿರುವ ಕಾರ್ನೆಲ್ ವಿಶ್ವವಿದ್ಯಾಲಯದ ಮಾಹಿತಿ ವಿಜ್ಞಾನದ ಸಹಾಯಕ ಪ್ರಾಧ್ಯಾಪಕ ಮತ್ತು ಅಧ್ಯಯನದ ಸಹ-ಲೇಖಕ ಯಿಯಾನ್ ಯಿನ್ ಹೇಳುತ್ತಾರೆ.
ವಿಮರ್ಶೆಯನ್ನು arXiv ಪ್ರಿಪ್ರಿಂಟ್ ಸರ್ವರ್ಗೆ ಪೋಸ್ಟ್ ಮಾಡಲಾಗಿದೆ1 ಮತ್ತು ಪೀರ್ ವಿಮರ್ಶೆ ಮಾಡಲಾಗಿಲ್ಲ.
ಗ್ರಂಥಸೂಚಿ ಭ್ರಮೆಗಳು
ಯಿನ್ ಮತ್ತು ಅವರ ಸಹೋದ್ಯೋಗಿಗಳು ಅವರು ತಿಳಿದಿರುವ ಸಂಶೋಧಕರಿಂದ ಅಜ್ಞಾತ ಕೆಲಸದ ಹಲವಾರು ಉಲ್ಲೇಖಗಳನ್ನು ಕಂಡುಹಿಡಿದ ನಂತರ ಸಮಸ್ಯೆಯ ವ್ಯಾಪ್ತಿಯನ್ನು ತನಿಖೆ ಮಾಡಲು ಪ್ರೇರೇಪಿಸಿದರು. “ನನಗೆ ಈ ಲೇಖಕರು ಗೊತ್ತು” ಎಂದು ಯಿನ್ ಹೇಳುತ್ತಾರೆ, “ಮತ್ತು ಅವರು ಈ ಕುರಿತು ಕಾಗದವನ್ನು ಹೊಂದಿಲ್ಲ ಎಂದು ನನಗೆ 90 ಪ್ರತಿಶತ ಖಚಿತವಾಗಿದೆ.”
ಸಮಸ್ಯೆಯ ವ್ಯಾಪ್ತಿಯನ್ನು ಪ್ರಮಾಣೀಕರಿಸಲು, ಸಂಶೋಧಕರು ಲಕ್ಷಾಂತರ ಹಸ್ತಪ್ರತಿಗಳಿಂದ ಉಲ್ಲೇಖ ಶೀರ್ಷಿಕೆಗಳನ್ನು ಹೊರತೆಗೆದರು ಮತ್ತು ಅವುಗಳನ್ನು ಸೆಮ್ಯಾಂಟಿಕ್ ಸ್ಕಾಲರ್, ಓಪನ್ಅಲೆಕ್ಸ್ ಮತ್ತು ಗೂಗಲ್ ಸ್ಕಾಲರ್ನೊಂದಿಗೆ ಪರಿಶೀಲಿಸಿದರು. ಹೊಂದಿಕೆಯಾಗದ ಉಲ್ಲೇಖಗಳು ಮತ್ತು LLM ಅನ್ನು ವಿದ್ವತ್ಪೂರ್ಣ ಮೂಲಗಳೆಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ, ಸೂಕ್ತವಲ್ಲ ಎಂದು ಗುರುತಿಸಲಾಗಿದೆ. ಗ್ರಂಥಸೂಚಿ ದೋಷಗಳು ಯಾವಾಗಲೂ ಅಸ್ತಿತ್ವದಲ್ಲಿದ್ದ ಕಾರಣ, ಸಂಶೋಧಕರು 2022 ರ ನಂತರ ಪ್ರಕಟವಾದ ವಸ್ತುಗಳಲ್ಲಿ ಕಂಡುಬರುವ ದೋಷಯುಕ್ತ ಉಲ್ಲೇಖಗಳನ್ನು ಮಾತ್ರ ಎಣಿಸಿದ್ದಾರೆ, ಮೊದಲ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ LLM ಅನ್ನು ಪ್ರಾರಂಭಿಸಲಾಯಿತು ChatGPT.

ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳು ವೈಜ್ಞಾನಿಕ ಸಾಹಿತ್ಯವನ್ನು ಕಲುಷಿತಗೊಳಿಸುತ್ತವೆ. ಏನು ಮಾಡಬಹುದು?
ವಿಭಿನ್ನ ರೆಪೊಸಿಟರಿಗಳ ನಡುವೆ ಭ್ರಮೆಯ ಉಲ್ಲೇಖದ ದರಗಳು ಬದಲಾಗುತ್ತವೆ ಎಂದು ವಿಶ್ಲೇಷಣೆಯು ಕಂಡುಹಿಡಿದಿದೆ. SSRN ಮೊದಲ ಸ್ಥಾನದಲ್ಲಿದೆ, ಆಗಸ್ಟ್ 2025 ರವರೆಗೆ ಪೋಸ್ಟ್ ಮಾಡಿದ ಅಧ್ಯಯನಗಳಿಂದ 1.91% ಉಲ್ಲೇಖಗಳನ್ನು ಭ್ರಮೆಗಳು ಎಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ. ArXiv, ಭೌತಿಕ ವಿಜ್ಞಾನ ಭಂಡಾರವು ಎರಡನೇ ಸ್ಥಾನದಲ್ಲಿದೆ, ಅದರ ಉಲ್ಲೇಖಗಳಲ್ಲಿ 0.39% ತಪ್ಪಾಗಿದೆ ಅಥವಾ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ಪತ್ರಿಕೆಗಳು ಅಥವಾ ಸಂಶೋಧಕರನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತದೆ.
ಬಯೋಮೆಡಿಕಲ್ ಡೇಟಾಬೇಸ್ ಪಬ್ಮೆಡ್ ಸೆಂಟ್ರಲ್ ಪೀರ್-ರಿವ್ಯೂಡ್ ಪ್ರಕಟಣೆಗಳಲ್ಲಿ 0.27% ಭ್ರಮೆಯ ಉಲ್ಲೇಖಗಳನ್ನು ಹೊಂದಿದೆ. BioRxiv, ಜೀವ ವಿಜ್ಞಾನದಲ್ಲಿ ಪರಿಣತಿ ಹೊಂದಿರುವ ಪ್ರಿಪ್ರಿಂಟ್ ಸರ್ವರ್, 0.21% ದರವನ್ನು ಹೊಂದಿತ್ತು.
2022 ರ ಮೊದಲು ಕಡಿಮೆ ಪ್ರಕಟಣೆಯ ಇತಿಹಾಸವನ್ನು ಹೊಂದಿರುವ ಸಂಶೋಧಕರ ಪೇಪರ್ಗಳಲ್ಲಿ ವಂಚನೆ ಉಲ್ಲೇಖಗಳು ಹೆಚ್ಚು ಪ್ರಚಲಿತವಾಗಿದೆ. ನಕಲಿ ಉಲ್ಲೇಖಗಳು ಸಂಭವಿಸಿದಾಗ, ಅವರು ಈಗಾಗಲೇ ಸ್ಥಾಪಿತವಾದ, ಹೆಚ್ಚು ಉಲ್ಲೇಖಿಸಿದ ಲೇಖಕರು, ಸಾಮಾನ್ಯವಾಗಿ ಪುರುಷನಿಗೆ ಅಸಮಾನವಾಗಿ ಕ್ರೆಡಿಟ್ ನೀಡುತ್ತಾರೆ, ಅಧ್ಯಯನವು ಕಂಡುಹಿಡಿದಿದೆ.