[English]

Today we have the privilege of inaugurating our Book Summaries section with a Physics classic: A Quantum Mechanics Primer, by Daniel T. Gillespie. This well-thought book serves as a quick and amicable, but also rigorous introduction to Quantum Mechanics (QM from now on) for the pure layperson with a mathematical knowledge.

Gillespie presents us a simple, non-relativistic, non-degenerate, one-dimensional scenario to teach us the fundamentals of the theory. QM mathematical foundations (the Hilbert space) and postulates (about states, observables and measurement) are his main aims. That’s why he -intentionally- does not enter the slippery realm of interpretations and sticks to the Copenhagen interpretation, that he considers “orthodox” for being the most commonly accepted between physicists. He does not develop any applications of the theory either (but he proposes a general exercise at the end that we will try to solve in some detail). Nevertheless, he compares QM with Classical Mechanics (CM) all over the work and performs mathematical deductions to satisfactorily explain the most famous QM “unintuitive” results (namely Heisenberg’s Uncertainty Principle, the Wave-Particle Duality and CM as the comfortable macroscopic limit for QM).

In this post we’ll cover the two first chapters of this work, which stand for a popular introduction to the subject and an explanation of the basic mathematical tools we’ll be needing in the following posts. If we get apart from Gillespie’s path, it will be just in rewordings and briefings, but all the ideas (at least at a pedagogical level) and the spirit of the work are due to him and for that he deserves full credit.

[Continues below]

———————————————————————————————————————

[Español]

Tenemos hoy el privilegio de inaugurar nuestra sección Book Summaries [Resúmenes de libros] con un clásico de la Física: Introducción a la Mecánica Cuántica, de Daniel T. Gillespie. Este bien estructurado libro sirve como introducción rápida y amigable, a la par que rigurosa, a la Mecánica Cuántica (MQ a partir de ahora) para el verdadero lego en la materia que posea ciertos conocimientos matemáticos.

Gillespie nos presenta un escenario sencillo, no relativista, no degenerado y unidimensional para mostrarnos las bases de la teoría. Sus objetivos principales son los fundamentos matemáticos de la MQ (el espacio de Hilbert) y sus postulados (sobre estados, observables y medidas). Éste es el motivo de que nos deje fuera (intencionadamente) del resbaladizo terreno de las distintas interpretaciones de la MQ y se contente con adherirse a la interpretación de Copenhague, que considera ortodoxa por ser la más aceptada en la comunidad física. Tampoco desarrolla ninguna aplicación de la teoría (pero al final propone un ejercicio general que trataremos de resolver con cierto detalle). No obstante, nos presenta una comparación entre la MQ y la Mecánica Clásica (MC), además de deducciones satisfactorias con las que explicar las resultados mecánicocuánticos más contraintuitivos (en concreto, el Principio de Incertidumbre de Heisenberg, la Dualidad Onda-Partícula y el hecho de que la MQ se transforme en nuestra reconfortable MC a nivel macroscópico).

En este post atacaremos los dos primeros capítulos de esta obra, que consisten en una introducción divulgativa a la materia y una exposición de las herramientas matemáticas básicas que pondremos en práctica en posts siguientes. Si nos apartamos algo del camino trazado por Gillespie, será únicamente al refrasear sus textos y resumirlos; pero tanto las ideas vertidas (a nivel pedagógico) como el espíritu de la obra se deben por entero a él y por ello le otorgamos todo el crédito.

[Continúa pulsando en el enlace]

—————————————————————————————————————————————-

[English]

Cover

A Quantum Mechanics Primer

Daniel T. Gillespie

Motivation: Why Quantum Mechanics?

Toward the end of the nineteenth century it seemed quite apparent to all physicists that the general concepts of what we now call Classical Physics were adequate to describe all physical phenomena. CM, first formulated by Isaac Newton in the late seventeenth century, evidently provided a completely valid framework for the treatment of the dynamics of material bodies. Moreover, Classical Electrodynamics, finalized by James Clerk Maxwell in the latter half of the nineteenth century, described all the properties of the electromagnetic field and gave an intelligible account of the wave nature of light.

During the first quarter of the twentieth century, as physicists turned from their successful treatment of the macroscopic world to an examination of the microscopic world, a number of unexpected difficulties arose, which can be broadly divided into two general categories:

First was the discovery of instances in nature in which certain physical variables assumed only quantized or discrete values, in contrast to the continuum of values expected on the basis of Classical Physics. For example, in order to explain the black-body radiation, i.e., the observed intensity spectrum of electromagnetic radiation inside a constant-temperature cavity, Max Planck in 1900 found it necessary to permit each atomic oscillator in the walls of the cavity to radiate energy only in the discrete amounts

h\nu, 2h\nu, 3h\nu...

Here, \nu is the intrinsic frequency of the radiating oscillator (the cavity walls were assumed to contain oscillators of all frequencies), and h is Planck’s constant, which value is

h=6.625 \times 10^{-34} joules·sec

There were several other instances of such quantum effects uncovered in the early part of the twentieth century, as the quantization of the angular momentum of hydrogen atom electrons postulated by Niels Bohr in 1913. In each case, the quantization of the appropriate variable amounted to an ad hoc hypothesis, and was without precedent in earlier applications of Classical Physics.

The second category of difficulties which beset Classical Physics concerned the distinction between waves and particles. By 1900 it was generally believed that light was a wave, while the electron was a particle. However, in 1905 Albert Einstein put forth his theory of the photoelectric effect, which indicated that a light beam of frequency \nu behaves as though it were a collection of particles, each with an energy

\epsilon = h\nu

Einstein’s hypothesis was a bold extrapolation of Planck’s theory of blackbody radiation, but it was subsequently borne out in great detail by precise experimental investigations.

In addition, experiments by C. Davison and L. Germer showed in 1927 that from a beam of electrons one can obtain diffraction patterns virtually identical to those which result from the crystal scattering of X-rays.

In short, light was found to behave sometimes as a wave and sometimes as a particle, and the electron was found to behave sometimes as a particle and sometimes as a wave! These results evidently implied some sort of wave-particle duality in nature which was quite unintelligible in terms of purely classical concepts.

With things like this, a radically different approach was needed. Such a new approach was not long in coming: by 1930, through the efforts of W. Heisenberg, E. Schrodinger, M. Born, N. Bohr, P. A. M. Dirac, and many other physicists, a bold new system of mechanics called QM had been devised. The basic tenets of QM are in many respects quite foreign to the concepts and attitudes of classical physics . However, there is no denying the fact that QM, in its present form, has been amazingly successful from an operational point of view;  that is, its predictions, no matter how unusual, have always been very much in accord with experimental observations. This is the reason for the acceptance of modern quantum theory by the overwhelming majority of physicists today.

The mathematical language of Quantum Mechanics

CM is formulated in terms of the mathematical language of differential and integral calculus. For example, velocity and acceleration are defined in terms of the derivative, work and impulse are defined in terms of the integral, and the conservation principles of energy and momentum find their rigorous justifications in certain elementary theorems of calculus.

QM has a mathematical language too, that involves not only calculus but also complex variable, linear algebra and probability theory, and we will see that the fundamental principles of the theory are also justified by elementary theorems. In this section we present briefly all those mathematical concepts which are essential to a meaningful understanding of QM. The necessity for achieving a reasonable degree of fluency in this mathematical language is even greater in the case of QM than CM; for quantum theory unfortunately does not readily lend itself to nonmathematical clarifications in terms of notions familiar to us from everyday experience.

Probability

We will just refresh the definitions and basic concepts of probability theory in a schematical way.

We say \{p_k\} is a set of probabilities defined over a set of similar objects (with labels \{v_k\}) if these two relations hold:

  1. 0\leq p_k \leq 1 for every k
  2. \sum_k p_k = 1

The sum and product rules state that

  1. p(v_k \text{ or } v_j) = p_k + p_j
  2. p(v_k \text{ and } v_j) = p_k\cdot p_j if the events are independent

The expected mean value and expected root-mean-square (rms) deviation are

  1. \langle v\rangle = \sum_k p_kv_k
  2. \sqrt{\langle v^2 \rangle - \langle v \rangle^2}

Note that a probability distribution has zero rms deviation if and only if \langle v^2 \rangle = \langle v \rangle^2, i.e., if and only if it is constant (not random at all).

Finally, for any function f of v its expected mean value is computed as

\langle f(v) \rangle =\sum_k p_kf(v_k)

Complex numbers

We will do here the same as with probabilities.

A complex number is a number c = a + i\cdot b , where a and b are real numbers and i^2 = -1. Recall that a, b are called respectively the real and imaginary parts of c, and we write a={\rm Re}c, b= {\rm Im}c.

The complex conjugate of c is the complex number

c^*=a-i\cdot b

Conjugates carry the following properties:

  1. {\rm Re}c = \dfrac{c+c^*}{2}, {\rm Im}c = \dfrac{c-c^*}{2i}
  2. c \in \mathbb{R} if and only if c=c^*
  3. (c_1+c_2)^* = c_1^*+c_2^*, (c_1c_2)^*=c_1^* c_2^*

The modulus of c is the real, nonnegative number |c| = +\sqrt{cc^*}, which satisfies:

  1. |c|^2 = ({\rm Re}c)^2+({\rm Im}c)^2
  2. |c| \geq {\rm Re}c, {\rm Im}c
  3. |c_1c_2| = |c_1||c_2|
  4. |c_1+c_2| \leq |c_1|+|c_2|

In exact analogy with the foregoing, we can define a complex function \psi of a real variable x to be a function of the form

\psi(x) = u(x) + iv(x)

where u(x) and v(x) are ordinary real functions of the real variable x. All the preceding equations hold for complex functions, provided that we replace {\rm Re}c with u(x) and {\rm Im}c by v(x).

The complex function \psi(x) can be differentiated and integrated with respect to its argument x. The rules for carrying out these two operations are just what one would expect:

  1. \frac{d}{dx}\psi(x) = \frac{d}{dx}u(x) +i\frac{d}{dx}v(x)
  2. \int_a^b \psi(x) dx = \int_a^b u(x) dx + i \int_a^b v(x) dx

The Euclidean space

The language of QM is mainly the language of vector spaces. The reader is assumed to be familiar with the elementary properties of “ordinary vectors” in three-dimensional Euclidean space \mathbb{R}^3.  Actually, the notion of a vector space is much more general than this. In fact, QM is formulated in terms of an infinite-dimensional vector space called the Hilbert space \mathbb{H}. A complete development of the mathematics of \mathbb{H} is beyond our reach; however, at the expense of a little mathematical rigor and generality, we shall come to a fairly good understanding of the Hilbert space by drawing suitable analogies with the simpler, more familiar properties of \mathbb{R}^3.

A vector in \mathbb{R}^3 can be defined as a directed line segment, possessing the properties of magnitude and direction.

Two operations common to all vector spaces are scalar multiplication and vector addition. Scalars in \mathbb{R}^3 are simply the set of all real numbers \mathbb{R}. The multiplication of a vector v by a scalar r yields a new vector rv, whose direction is the same as that of v but whose magnitude is r times the magnitude of v. Negative scalar multipliers reverse the direction. The addition of two vectors v_1 and v_2 yields a new vector v_1+v_2, obtained by placing the tail of v_2 at the head of  v_1 and constructing the directed line segment from the tail of v_1 to the head of v_2.

Another important feature of many (but not all) vector spaces is the existence of an operation called the inner product. In \mathbb{R}^3 the inner product of v_1 and v_2 is, by definition,

v_1 \cdot v_2 = |v_1||v_2|cos\theta_{12}

where \theta_{12} is the angle between v_1 and v_2 when they are placed tail-to-tail. The inner product of two vectors is always a scalar (in this case, a real number). In particular, the inner product of a vector with itself, called its norm, is always nonnegative:

v \cdot v = |v|^2 \geq 0

[Note that we don't follow here the usual mathematical convention, which establishes the norm as the positive square root of the inner product of a vector with itself.]

The inner product of \mathbb{R}^3 satisfies:

  1. v_1 \cdot v_2 =v_2 \cdot v_1
  2. r_1v_1 \cdot r_2v_2 =r_1r_2v_1 \cdot v_2
  3. (v_1+v_2)\cdot (v_3+v_4) = v_1 \cdot v_3+v_1 \cdot v_4 +v_2 \cdot v_3 +v_2 \cdot v_4
  4. |v_1 \cdot v_2| \leq \sqrt{v_1 \cdot v_1}\sqrt{v_2 \cdot v_2} (Schwarz inequality)

Two vectors v_1 and v_2 are said to be orthogonal if v_1 \cdot v_2 = 0. The set \{v_i\} is orthonormal if v_i \cdot v_j = \delta_{ij}, and is complete if for every v we can find a set of scalars \{r_i\} such that v = \sum_i r_iv_i (in \mathbb{R}^3, any set of three or more noncoplanar vectors happens to be complete). Of particular interest are those sets of vectors which are both orthonormal and complete; such a set is called an orthonormal basis. In \mathbb{R}^3 there are infinitely many different orthonormal basis sets (that differ by simple rotations), and all have exactly three vectors: that’s why \mathbb{R}^3 is said to be three-dimensional.

If \{e_i\}_{i=1}^3 is an orthonomal basis, then for any v we have

v=\sum_{i=1}^3 (e_i \cdot v) e_i

And if a,b are vectors with components \{a_i\}_{i=1}^3,\{b_i\}_{i=1}^3 in the orthonomal basis \{e_i\}_{i=1}^3, then:

  1. a\cdot b = \sum_{i=1}^3 a_ib_i
  2. a\cdot a = \sum_{i=1}^3 a_i^2

The Hilbert space

We define a vector in \mathbb{H} to be a complex function \psi of a single real variable x . Not all such functions are truly vectors in \mathbb{H}, but only those that satisfy a certain condition; we shall state and discuss it a bit later. The scalars in \mathbb{H} are by definition the set of all complex numbers. The two operations of scalar multiplication and vector adition are defined by the usual rules for adding and multiplying complex quantities.

The inner product of \psi_1 and \psi_2 , which is always a scalar, is defined as

(\psi_1,\psi_2)=\int_{-\infty}^ \infty \psi_1^*(x) \psi_2(x)dx

and the norm of \psi, which is always a real number, is

(\psi,\psi)=\int_{-\infty}^ \infty |\psi(x) |^2dx\geq 0

The inner product of \mathbb{H} satisfies:

  1. (\psi_1,\psi_2)=(\psi_2,\psi_1)^*
  2. (c_1\psi_1,c_2\psi_2)=c_1^*c_2(\psi_1,\psi_2)
  3. (\psi_1+\psi_2\psi_3+\psi_4)=(\psi_1,\psi_3)+(\psi_1,\psi_4)+(\psi_2,\psi_3)+(\psi_2,\psi_4)
  4. |(\psi_1,\psi_2)|\leq Sqrt{(\psi_1,\psi_1)}Sqrt{(\psi_2,\psi_2)} (Schwarz inequality)

We have just seen that, if we adopt certain well-defined rules for obtaining the scalar product, vector sum and inner product for complex functions of a real variable,  we arrive at properties that are essentially identical to those of \mathbb{R}^3; consequently, we are entirely justified in regarding complex functions as “vectors” in a vector space.  Our definition of the inner product, which probably seemed peculiar to the reader, was chosen simply because it was a way of obtaining a unique scalar from two vectors such that those equations were satisfied. If we could conjure up a different set of rules for forming linear combinations and inner products which still satisfied all the conditions above, then we would have constructed another perfectly valid vector space of complex functions; however, that one would probably not turn out to be as relevant for describing physical phenomena as our Hilbert space turns out to be.

The condition that \psi must satisfy to be a vector in \mathbb{H} is to have a finite norm:

(\psi,\psi) < \infty

An analogous condition was implicitly imposed on \mathbb{R}^3 vectors, through their definition as directed line segments (i.e., lines of finite length). This condition insures the following important results:

  1. If \psi_1 and \psi_2 are in \mathbb{H}, then their inner product “exists” (is a complex number, not infinity). This result follows from the Schwarz inequality.
  2. If \psi_1 and \psi_2 are in \mathbb{H}, then so is any linear combination of them. This is proved using elemental properties of complex numbers and (1) above.

Two vectors \psi_1 and \psi_2 are said to be orthogonal if (\psi_1,\psi_2) = 0. The set \{\psi_i\} is orthonormal if (\psi_i,\psi_j) = \delta_{ij}, and is complete if for every \psi we can find a set of scalars \{c_i\} such that \psi = \sum_i c_i\psi_i. Special use will be made of sets of vectors which are both orthonormal and complete; such a set is called an orthonormal basis. In \mathbb{H} there are also infinitely many, but all of them contain infinitely many vectors: for this reason it is said to be infinite-dimensional.

If \{e_i\} is an orthonomal basis, then for any \psi we have

\psi=\sum_{i=1}^\infty (e_i,\psi) e_i

And if \psi,\phi are vectors with components \{c_i\},\{d_i\} in the orthonomal basis \{e_i\}, then:

  1. (\psi,\phi) = \sum_{i=1}^\infty c_i^*d_i
  2. (\psi,\psi)= \sum_{i=1}^\infty |c_i|^2

In the remainder of this book, we shall be concerned only with vectors in \mathbb{H} and not in \mathbb{R}^3. However, the correspondences which we have traced between the two will often allow us to visualize by analogy just what we are doing in \mathbb{H}. This will help us to keep our feet on the ground as we proceed through the rather abstract theory of QM.

Hilbert space operators

An operator O in the Hilbert space specifies a correspondence which associates with each vector \psi in \mathbb{H} another vector \phi (i.e., it is a “function” over vectors). We write \phi=O\psi. The product of c times O, and the sum and product of O_1 and O_2 are by definition such that the following equations are valid for all vectors:

  1. (cO)\psi = c(O\psi)
  2. (O_1+O_2)\psi = O_1\psi + O_2\psi
  3. (O_1O_2)\psi = O_1(O_2\psi)

It is not necessarily true that O_1O_2 = O_2O_1; if this equality holds for all vectors \psi, we say that O_1 and O_2 commute (for example, O_1 = x\cdot and O_2 = \frac{d}{dx} do not commute).

In QM virtually all operators of interest possess a property called linearity. O is said to be a linear operator if for any vectors \psi_1, \psi_2 and any scalars c_1, c_2 we have

O(c_1\psi_1 + c_2\psi_2) = c_1O\psi_1 + c_2O\psi_2

(for example, \frac{d}{dx} is a linear operator). If O_1,O_2 are linear, then so are their product and any linear combination of them.

Another property which many operators in QM possess is hermiticity. O is Hermitian if for any vectors \psi_1, \psi_2,

(O\psi_1,\psi_2) = (\psi_1,O\psi_2)

(for example, the simple operator O=c\cdot is Hermitian if c \in \mathbb{R}). If O_1,O_2 are Hermitian, then so is any real linear combination of them, and their product will be Hermitian if they commute.
We turn now to one final aspect of operators which will prove to be very essential to the mathematical formulation of QM. If the effect of a given operator O on some particular vector \psi is to multiply it by an scalar c, then we say that \psi is an eigenvector (or eigenfunction) of O, and c is its corresponding eigenvalue:

O\psi=c\psi

(for example,  e^{ax} (a \in \mathbb{R}) is an eigenfunction of \frac{d}{dx} with eigenvalue a). We can now establish two important results concerning the eigenvectors of Hermitian operators:

  1. The eigenvalues of an Hermitian operator are real, because c(\psi,\psi)=(\psi,O\psi) = (O\psi,\psi)=c^*(\psi,\psi) implies c=c^*.
  2. The eigenvectors corresponding to two unequal eigenvalues of an Hermitian operator are orthogonal to each other, because c_2(\psi_1,\psi_2) = (\psi_1,O\psi_2)=(O\psi_1,\psi_2)=c_1^*(\psi_1,\psi_2) implies (\psi_1,\psi_2) =0 (c_1,c_2 are real).

We shall now prove a theorem that is almost the converse of the preceding two results. Suppose A is a linear operator which possesses a complete, orthonormal set of eigenvectors \{\alpha_n\} and a corresponding set of real eigenvalues \{a_n\}. Then A is Hermitian.

Proof:

Let \phi,\psi \in \mathbb{H} be two arbitrary vectors, and c_n = (\alpha_n,\phi), d_n = (\alpha_n, \psi) their components in the orthonomal basis \{\alpha_n\}. Then,

(A\phi,\psi)=(A\sum_n c_n\alpha_n, \sum_n d_n\alpha_n)=(\sum_n c_nA\alpha_n, \sum_n d_n\alpha_n)=

=(\sum_n c_na_n\alpha_n, \sum_n d_n\alpha_n)=\sum_{m,n}c_n^*a_n^*d_m(\alpha_n,\alpha_m)=

=\sum_{m,n} c_n^*a_n^*d_m \delta_{m,n}= \sum_n c_n^*a_nd_n

and analogously we get (\phi,A\psi)=\sum_n c_n^*d_na_n

\square

Note that any operator in the conditions of the theorem above is completely specified by its sets of eigenvectors and eigenvalues.

————————————————————————————————————————————–

Up to here the introduction to the mathematical language of QM. Look forward to the next post, featuring a brief review of CM and the first three postulates of QM!

———————————————————————————————————————

[Español]

Cover

Introducción a la Mecánica Cuántica

Daniel T. Gillespie

¿Por qué era necesaria la Mecánica Cuántica?

Hacia finales del siglo XIX, los físicos creían que los conceptos generales de lo que hoy llamamos Física Clásica eran adecuados para describir todos los fenómenos físicos. La MC, formulada por Isaac Newton a finales del siglo XVII proporcionaba, evidentemente, un marco completamente válido para el tratamiento de la dinámica de los cuerpos materiales. Más allá aún, la Electrodinámica Clásica, finalizada por James Clerk Maxwell en la segunda mitad del siglo XIX, describía todas las propiedades del campo electromagnético y daba una expliación inteligible de la naturaleza ondulatoria de la luz.

Sin embargo durante el primer cuarto del siglo XX, cuando los físicos pasaron de su tratamiento satisfactorio del mundo macroscópico a examinar el mundo microscópico, surgieron una serie de dificultades inesperadas, que pueden ser clasificadas de forma general en dos categorías:

Primeramente se descubrieron en la naturaleza ejemplos en los que ciertas variables físicas asumían sólo valores cuantizados o discretos, en contraste con la continuidad de valores que se desprendía de la Física Clásica. Por ejemplo, para explicar la radiación del cuerpo negro, es decir, el espectro observado de intensidades de la radiación electromagnética emergente del interior de una cavidad a temperatura constante, Max Planck encontró necesario en 1900 permitir que cada oscilador atómico de las paredes de la cavidad radiara energía solamente en cantidades discretas iguales a

h\nu, 2h\nu, 3h\nu...

donde \nu es la frecuencia intrínseca del oscilador radiante  (se suponía que las paredes de la cavidad contenían osciladores de todas las frecuencias) y h es la constante de Planck, cuyo valor es

h=6.625 \times 10^{-34} julios·seg

Se descubrieron más instancias de tales efectos cúanticos en la primera parte del siglo XX, como la cuantización del momento angular de los electrones del átomo de hidrógeno postulada por Niels Bohr en 1913. En cada caso, la cuantización de la variable adecuada se convertía en una hipótesis añadida a posteriori que no tenía precedente en las aplicaciones anteriores de la Física Clásica.

La segunda categoría de dificultades que infestaron la Física Clásica concernía a la distinción entre ondas y partículas. En 1900 se creía, en general, que la luz era una onda mientras que el electrón era una partícula. Sin embargo, Albert Einstein  presentó en 1905 su teoría del efecto fotoeléctrico, en la que indicaba que un rayo de luz de frecuencia \nu se comporta como si fuese una colección de partículas, cada una de ellas con una energía

\epsilon = h\nu

La hipótesis de Einstein era una extrapolación atrevida de la teoría de Planck de la radiación del cuerpo negro, pero fue confirmada enseguida en gran detalle por estudios experimentales precisos.

En añadidura, experimentos llevados a cabo en 1927 por C. Davison y L. Germer mostraron que a partir de un haz de electrones se pueden obtener patrones de difracción virtualmente idénticos a los que resultan de la dispersión de rayos X mediante cristales.

En resumen, ¡se encontró que la luz se comportaba a veces como una onda y a veces como una partícula, y que el electrón se comportaba a veces como una partícula y a veces como una onda! Estos resultados implicaban ciertamente un tipo de dualidad onda-partícula en la naturaleza que no podía explicarse mediante los conceptos puramente clásicos.

Así las cosas, era necesario un punto de vista radicalmente diferente. Dicho punto de vista no tardó en llegar: hacia 1930, gracias a los esfuerzos de W. Heisenberg, E. Schrodinger, M. Born, N. Bohr, P. A. M. Dirac y muchos otros físicos, surgió un nuevo y audaz sistema de Mecánica llamado MQ. Los principios fundamentales de la MQ son en muchos aspectos bastante extraños a los conceptos y actitudes de la Física Clásica. Aún así, no puede negarse el hecho de que la MQ, en su forma actual, ha tenido un éxito abrumador desde un punto de vista operativo; es decir, sus predicciones,  por muy inusuales que sean, han estado siempre en estrecho acuerdo con las observaciones experimentales. Esta es la razón de la aceptación de la teoría cuántica moderna por parte de la inmensa mayoría de los físicos actuales.

El lenguaje matemático de la Mecánica Cuántica

La MC se formula con el lenguaje matemático del cálculo diferencial e integral. Por ejemplo, la velocidad y la aceleración se definen como derivadas, el trabajo y el impulso como integrales, y los principios de conservación de la energía y de la cantidad de movimiento hallan sus justificaciones rigurosas en ciertos teoremas elementales del cálculo.

La MQ también tiene un lenguaje matemático, en el que intervienen no sólo el cálculo, sino también la variable compleja, el álgebra lineal y la teoría de la probabilidad, y como veremos, los principios fundamentales de la teoría también se justifican mediante teoremas elementales. En esta sección presentamos brevemente todos aquellos conceptos matemáticos que son esenciales para comprender el significado de la MQ. La necesidad de lograr un grado de fluidez razonable en este lenguaje matemático es aún mayor en el caso de la MQ que en el de la MC ya que, desgraciadamente, la teoría cuántica no se presta fácilmente a aclaraciones no matemáticas mediante nociones que nos sean familiares por nuestra experiencia cotidiana.

Probabilidad

Refrescaremos de forma esquemática las definiciones y los conceptos básicos de la teoría de la probabilidad.

Decimos que \{p_k\} es un conjunto de probabilidades asociadas a un conjunto de objetos similares (con etiquetas \{v_k\}) si se tienen las dos relaciones siguientes:

  1. 0\leq p_k \leq 1 for every k
  2. \sum_k p_k = 1

Las reglas de la suma y el producto establecen que

  1. p(v_k \text{ o } v_j) = p_k + p_j
  2. p(v_k \text{ y } v_j) = p_k\cdot p_j si los sucesos son independientes

El valor medio esperado y la desviación cuadrática media son, respectivamente,

  1. \langle v\rangle = \sum_k p_kv_k
  2. \sqrt{\langle v^2 \rangle - \langle v \rangle^2}

Obsérvese que una distribución de probabilidad tiene desviación cuadrática media cero si y sólo si \langle v^2 \rangle = \langle v \rangle^2, es decir, si y sólo si es constante (no aleatoria).

Finalmente, el valor medio esperado de cualquier función f de v se calcula como

\langle f(v) \rangle =\sum_k p_kf(v_k).

Números complejos

Haremos aquí lo mismo que con las probabilidades.

Un número complejo es un número c = a + i\cdot b , donde a y b son números reales e i^2 = -1. Recordemos que a, b se llaman respecivamente las partes real e imaginaria de c y que escribimos a={\rm Re}c, b= {\rm Im}c.

El complejo conjugado de c es el número complejo

c^*=a-i\cdot b

Los conjugados poseen las siguientes propiedades:

  1. {\rm Re}c = \dfrac{c+c^*}{2}, {\rm Im}c = \dfrac{c-c^*}{2i}
  2. c \in \mathbb{R} si y sólo si c=c^*
  3. (c_1+c_2)^* = c_1^*+c_2^*, (c_1c_2)^*=c_1^* c_2^*

El módulo de c es el número real no negativo |c| = +\sqrt{cc^*}, que satisface:

  1. |c|^2 = ({\rm Re}c)^2+({\rm Im}c)^2
  2. |c| \geq {\rm Re}c, {\rm Im}c
  3. |c_1c_2| = |c_1||c_2|
  4. |c_1+c_2| \leq |c_1|+|c_2|

En analogía exacta con lo anterior, podemos definir una función compleja \psi de variable real x como función de la forma

\psi(x) = u(x) + iv(x)

donde u(x) y v(x) son funciones reales ordinarias de variable real x.  Todas las igualdades precedentes siguen siendo válidas para las funciones complejas, sin más que sustituir p{\rm Re}c por u(x) y {\rm Im}c por v(x).

La función compleja \psi(x) puede derivarse e integrarse respecto de su argumento x. Las reglas para efectuar estas dos operaciones son precisamente las que cabía esperar:

  1. \frac{d}{dx}\psi(x) = \frac{d}{dx}u(x) +i\frac{d}{dx}v(x)
  2. \int_a^b \psi(x) dx = \int_a^b u(x) dx + i \int_a^b v(x) dx

El espacio euclídeo

El lenguaje de la MQ es esencialmente el lenguaje de los espacios vectoriales. Se supone al lector familiarizado con las propiedades elementales de los “vectores ordinarios” en el espacio euclídeo tridimensional \mathbb{R}^3. En realidad, la noción de espacio vectorial es mucho más general. De hecho, la MQ se formula en función de un espacio vectorial de dimensión infinita, el espacio de Hilbert \mathbb{H}. El desarrollo completo de la matemática de \mathbb{H} se sale del ámbito de esta obra; sin embargo, sacrificando un poco el rigor matemático y la generalidad, podremos comprender bastante bien el espacio de Hilbert  utilizando analogías con las propiedades familiares y más sencillas de \mathbb{R}^3.

Un vector en \mathbb{R}^3 puede definirse como un segmento orientado, y como tal posee las propiedades de magnitud, dirección y sentido.

Dos operaciones comunes a todos los espacios vectoriales son la multiplicación por un escalar y la suma de vectores. Los escalares de \mathbb{R}^3 son simplemente el conjunto de todos los números reales \mathbb{R}. La multiplicación de un vector v por un escalar r genera un nuevo vector rv, cuya dirección es la misma de v pero cuya magnitud es r veces la magnitud de v. La multiplicación por escalares negativos invierte el sentido. La suma de dos vectores v_1 y v_2 devuelve un nuevo vector v_1+v_2, que se obtiene colocando el origen de v_2 en el extremo de v_1 y construyendo el segmento orientado que tiene por origen el de v_1 y por extremo el de v_2.

Otra característica importante de muchos espacios vectoriales (pero no de todos)  es la existencia de una operación llamada producto escalar. En \mathbb{R}^3 el producto escalar de v_1 y v_2 es, por definición,

v_1 \cdot v_2 = |v_1||v_2|cos\theta_{12}

donde \theta_{12} es el ángulo que forman v_1 y v_2 cuando se hacen coincidir sus orígenes. El producto escalar de dos vectores es siempre un escalar (en este caso, un número real). En particular, el producto escalar de un vector por sí mismo, denominado su norma, es siempre no negativo:

v \cdot v = |v|^2 \geq 0

[Note el lector que en este texto no se sigue la convención matemática habitual, que define la norma como la raíz cuadrada postiva del producto escalar de un vector por sí mismo.]

El producto escalar de \mathbb{R}^3 satisface:

  1. v_1 \cdot v_2 =v_2 \cdot v_1
  2. r_1v_1 \cdot r_2v_2 =r_1r_2v_1 \cdot v_2
  3. (v_1+v_2)\cdot (v_3+v_4) = v_1 \cdot v_3+v_1 \cdot v_4 +v_2 \cdot v_3 +v_2 \cdot v_4
  4. |v_1 \cdot v_2| \leq \sqrt{v_1 \cdot v_1}\sqrt{v_2 \cdot v_2} (desigualdad de Schwarz)

Dos vectores v_1 y v_2 se dicen ortogonales si v_1 \cdot v_2 = 0. El conjunto \{v_i\} es ortonormal si v_i \cdot v_j = \delta_{ij}, y es completo si para cada v podemos encontrar un conjunto de escalares \{r_i\} tal que v = \sum_i r_iv_i (en \mathbb{R}^3, todo conjunto de tres o más vectores no coplanarios resulta ser completo). Presentan especial interés aquelos conjuntos de vectores que son a la vez ortonormales y completos; a un tal conjunto se le denomina base ortonormal. En \mathbb{R}^3 existen infinitas bases ortonormales distintas (se pasa de una a otra mediante rotaciones simples), y todas tienen exactamente tres vectores: por eso decimos que \mathbb{R}^3 es tridimensional.

Si \{e_i\}_{i=1}^3 es una base ortonormal, para cualquier v se tiene

v=\sum_{i=1}^3 (e_i \cdot v) e_i

Y si a,b son vectores con componentes \{a_i\}_{i=1}^3,\{b_i\}_{i=1}^3 en la base ortonormal \{e_i\}_{i=1}^3, entonces:

  1. a\cdot b = \sum_{i=1}^3 a_ib_i
  2. a\cdot a = \sum_{i=1}^3 a_i^2

El espacio de Hilbert

Definimos un vector en \mathbb{H} como una función compleja \psi de una variable real x. No todas estas funciones son realmente vectores de \mathbb{H}, sino solamente aquellas que satisfagan cierta condición que enunciaremos y discutiremos un poco más adelante. Los escalares de \mathbb{H} son por definición el conjunto de los números comlejos. Las dos operaciones de multiplicación por escalares y suma de vectores se definen mediante las reglas usuales para sumar y multiplicar cantidades complejas.

El producto escalar de \psi_1 y \psi_2 , que es siempre un escalar, se define como

(\psi_1,\psi_2)=\int_{-\infty}^ \infty \psi_1^*(x) \psi_2(x)dx

y la norma de \psi, que es siempre un número real, es

(\psi,\psi)=\int_{-\infty}^ \infty |\psi(x) |^2dx\geq 0

El producto escalar de \mathbb{H} cumple:

  1. (\psi_1,\psi_2)=(\psi_2,\psi_1)^*
  2. (c_1\psi_1,c_2\psi_2)=c_1^*c_2(\psi_1,\psi_2)
  3. (\psi_1+\psi_2\psi_3+\psi_4)=(\psi_1,\psi_3)+(\psi_1,\psi_4)+(\psi_2,\psi_3)+(\psi_2,\psi_4)
  4. |(\psi_1,\psi_2)|\leq Sqrt{(\psi_1,\psi_1)}Sqrt{(\psi_2,\psi_2)} (Desigualdad de Schwarz)

Acabamos de ver que si adoptamos ciertas reglas bien definidas para la obtención de un producto por escalares, una suma de vectores y un producto escalar para funciones complejas de una variable real,  llegamos a propiedades que son esencialmente idénticas a las de \mathbb{R}^3; en consecuencia, está plenamente justificado que consideremos las funciones complejas como “vectores”  de un espacio vectorial. Nuestra definición del producto escalar, que probablemente pueda parecer peculiar al lector, fue elegida sencillamente porque era una manera de obtener un escalar único a partir de dos vectores de manera que se cumpliesen dichas ecuaciones. Si pudiéramos establecer un conjunto diferente de reglas para formar combinaciones lineales y productos escalares que también cumpliesen las condiciones anteriores,  habríamos construido otro espacio vectorial de funciones complejas perfectamente válido; sin embargo, éste probablemente no se mostraría tan relevante para describir los fenómenos físicos como lo es nuestro espacio de Hilbert.

La condición que debe satisfacer \psi para ser un vector de \mathbb{H} consiste en tener norma finita:

(\psi,\psi) < \infty

Implícitamente, se impuso una condición análoga sobre los vectores de \mathbb{R}^3 al definirlos como segmentos orientados (es decir, líneas orientadas de longitud finita). Esta condición nos asegura los dos importantes resultados siguientes:

  1. Si \psi_1 and \psi_2 están en \mathbb{H}, entonces su producto “existe” (es un número complejo, no infinito). Este resultado se sigue de la desigualdad de Schwarz.
  2. Si \psi_1 y \psi_2 están en \mathbb{H}, entonces cualquier combinación lineal de ellos también lo está. Esto se prueba usando propiedades elementales de los números complejos y el resultado (1) anterior.

Dos vectores \psi_1 y \psi_2 se dicen ortogonales si (\psi_1,\psi_2) = 0. El conjunto \{\psi_i\} es ortonormal si (\psi_i,\psi_j) = \delta_{ij}, y es completo si para cada \psi podemos encontrar un conjunto de escalares \{c_i\} tal que \psi = \sum_i c_i\psi_i. Especialmente útiles serán los conjuntos de vectores que son a la vez ortonormales y completos; los llamaremos bases ortonormales. En \mathbb{H} también hay infinitas de estas bases, pero todas contienen un número infinito de vectores: por eso se dice que es infinito-dimensional.

Si \{e_i\} es una base ortonormal, entonces para cualquier \psi se tiene

\psi=\sum_{i=1}^\infty (e_i,\psi) e_i

Y si \psi,\phi son vectores con componentes \{c_i\},\{d_i\} en la base ortonormal \{e_i\}, entonces:

  1. (\psi,\phi) = \sum_{i=1}^\infty c_i^*d_i
  2. (\psi,\psi)= \sum_{i=1}^\infty |c_i|^2

En el resto de este libro sólo nos preocuparemos de \mathbb{H} , no de \mathbb{R}^3. Sin embargo, las correspondencias wue hemos establecido entre los dos nos permitirán a menudo visualizar por analogía lo que estamos haciendo en \mathbb{H}. Esto nos ayudará a tener los pies en el suelo al avanzar a través de la teoría, algo abstracta, de la MQ.

Operadores del espacio de Hilbert

Un operator O del espacio de Hilbert especifica una correspondencia que asocia a cada vector \psi de \mathbb{H}  otro vector \phi (es decir, es una “función” de vectores). Escribiremos \phi=O\psi. El producto de c por O y la suma y el producto de O_1 y O_2 son por definición tales que sean válidas las siguientes relaciones para todos los vectores:

  1. (cO)\psi = c(O\psi)
  2. (O_1+O_2)\psi = O_1\psi + O_2\psi
  3. (O_1O_2)\psi = O_1(O_2\psi)

No es necerasiamente cierto que O_1O_2 = O_2O_1; si se tiene esta igualdad para todos los vectores \psi, decimos que O_1 y O_2 conmutan (por ejemplo, O_1 = x\cdot y O_2 = \frac{d}{dx} no cnmmutan).

En MQ, virtualmente todos los operadores de interés poseen una propiedad llamada linealidad. Se dice que O es un operador lineal si para cada par de vectores \psi_1, \psi_2 y cada par de escalares c_1, c_2 tenemos

O(c_1\psi_1 + c_2\psi_2) = c_1O\psi_1 + c_2O\psi_2

(por ejemplo, \frac{d}{dx} es un operador lineal). Si O_1,O_2 son lineales, también lo son su producto y cualquier combinación lineal de ellos.

Otra propiedad que poseen muchos operadores en la MQ es la hermiticidad. O es hermítico si para cada par de vectores \psi_1, \psi_2,

(O\psi_1,\psi_2) = (\psi_1,O\psi_2)

(por ejemplo, el sencillo operador O=c\cdot es hermítico si c \in \mathbb{R}). Si O_1,O_2 son hermíticos, también lo será cualquier combinación lineal real de ellos, y su producto será hermítico si conmutan.

Pasemos ahora a un aspecto final de los operadores que resultará realmente esencial para la formulación matemática de la MQ. Si el efecto de un operador O sobre un vector particular \psi es el de multiplicarlo por un escalar c, decimos que \psi es un autovector de O, y c es el correspondiente autovalor:

O\psi=c\psi

(por ejemplo,  e^{ax} (a \in \mathbb{R}) es un autovector de \frac{d}{dx} con autovalor a). Podemos ahora establecer dos importantes resultados referentes a los autovectores y autovalores de los operadores hermíticos:

  1. Los autovalores de un operador hermítico son reales, porque c(\psi,\psi)=(\psi,O\psi) = (O\psi,\psi)=c^*(\psi,\psi) implica c=c^*.
  2. Los autovectores correspondientes a dos autovalores diferentes de un operador hermítico son ortogonales, porque c_2(\psi_1,\psi_2) = (\psi_1,O\psi_2)=(O\psi_1,\psi_2)=c_1^*(\psi_1,\psi_2) implica (\psi_1,\psi_2) =0 (c_1,c_2 son reales).

Vamos a demostrar un teorema que es casi el recíproco de los dos resultados anteriores. Supongamos que A es un operador lineal que posee un conjunto ortonormal completo de vectores propios \{\alpha_n\} con autovalores reales asociados \{a_n\}. Entonces A es hermítico.

Demostración:

Sean \phi,\psi \in \mathbb{H} dos vectores arbitrarios y c_n = (\alpha_n,\phi), d_n = (\alpha_n, \psi) sus componentes en la base ortonormal \{\alpha_n\}. Entonces

(A\phi,\psi)=(A\sum_n c_n\alpha_n, \sum_n d_n\alpha_n)=(\sum_n c_nA\alpha_n, \sum_n d_n\alpha_n)=

=(\sum_n c_na_n\alpha_n, \sum_n d_n\alpha_n)=\sum_{m,n}c_n^*a_n^*d_m(\alpha_n,\alpha_m)=

=\sum_{m,n} c_n^*a_n^*d_m \delta_{m,n}= \sum_n c_n^*a_nd_n

y análogamente conseguimos (\phi,A\psi)=\sum_n c_n^*d_na_n

\square

Nótese que cualquier operador que esté en las condiciones del teorema anterior queda completamente especificado por sus conjuntos de autovalores y autovectores.

————————————————————————————————————————————–

Hasta aquí la introducción al lenguaje matemático de la MQ. ¡No dejéis de leer el próximo post,  que incluirá un breve resumen de la MC y el desarrollo de los tres primeros postulados de la MQ!

About these ads